JP2011081642A - Retrieval server, information retrieval method, program and storage medium - Google Patents
Retrieval server, information retrieval method, program and storage medium Download PDFInfo
- Publication number
- JP2011081642A JP2011081642A JP2009233981A JP2009233981A JP2011081642A JP 2011081642 A JP2011081642 A JP 2011081642A JP 2009233981 A JP2009233981 A JP 2009233981A JP 2009233981 A JP2009233981 A JP 2009233981A JP 2011081642 A JP2011081642 A JP 2011081642A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- information
- access right
- confidential information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書等の情報を検索する技術に関する。 The present invention relates to a technique for retrieving information such as documents.
近年、企業や組織において横断的な情報活用のために情報検索システムの導入が一般的になりつつある。しかし、企業や組織内の情報の中には機密性の高いものやプライバシーに配慮すべきものが含まれている場合があるため、適切な権限を持つユーザーにのみ適切な情報を開示するアクセス制御が必要である。現在市場に流通する企業内検索製品においては、このような需要に応えるために、文書単位あるいは文書の集合単位でアクセス制御が広く行われている。例えば、特許文献1には、検索システムにおいて、ファイルに付与されたアクセス権を用いてアクセス制御を行う技術が開示されている。また、非特許文献1〜4の企業内検索製品において、ファイルあるいはファイルの集合に対して、ユーザーの権限に応じて検索の可否や検索結果への表示可否が行われている。
In recent years, introduction of information retrieval systems has become common for companies and organizations to use information across the board. However, some information within a company or organization may contain sensitive or privacy-sensitive information, so access control that discloses appropriate information only to users with appropriate authority is required. is necessary. In-house search products currently distributed in the market, in order to meet such demand, access control is widely performed in document units or document collection units. For example,
また、従来技術として、ユーザーの検索キーワードを制限する形態のアクセス制御方式がある。例えば、特許文献2には、ユーザーが検索を行う際、検索キーワードと共にパスワードの入力を要する技術が開示されている。
As a conventional technique, there is an access control method in which a user's search keyword is limited. For example,
また、従来技術として、文書内の一部を墨塗り等によって非開示とするような、より細かい粒度でアクセス制御を実施する技術も存在する。例えば、特許文献3や特許文献4には、文書を表示する際に文書の特定の箇所を非開示とする技術が開示されている。また、非特許文献5には、文書の一部を暗号化する技術が開示されている。
Further, as a conventional technique, there is a technique for performing access control with a finer granularity such that a part of a document is not disclosed by sanitization or the like. For example,
特許文献1や非特許文献1〜4に開示されているような文書単位でのアクセス制御を用いて機密情報やプライバシー情報を含む文書を検索結果に非列挙とすると、当該文書は検索にヒットしなくなる。この場合、企業内や組織内の情報共有においては、可能な限り情報を共有することが望ましいにも関わらず、当該文書内の非機密情報や非プライバシー情報も共有されなくなってしまう。また、特許文献1や非特許文献1〜4で開示されているような文書単位でのアクセス制御を行い、機密情報やプライバシー情報を含む文書を検索結果に列挙する一方で、当該文書の内容の閲覧を制限することもできる。しかし、この場合、ユーザーが入力した検索文中のキーワードに当該文書がヒットすることから、ユーザーは当該文書が当該キーワードを含む事実を把握できる。ユーザーはさらにいくつかのキーワードでの検索や、複数のキーワードでのAND検索やOR検索等を実行して当該文書のヒットの有無やヒット順位の変動を見ることで、当該文書の内容を推測できるため、結果として間接的に機密情報やプライバシー情報の漏洩につながり得る。
If a document containing confidential information or privacy information is not enumerated in the search results using access control in document units as disclosed in
また、特許文献2に開示されているような技術を用いて、検索キーワードを制限すると、当該キーワードで検索が一律制限されてしまう。ある文書で、ある単語が機密扱いであったからといって、別の文書でも同じ単語が機密扱いであるとは限らないため、検索キーワードの制限は非機密情報や非プライバシー情報の共有を阻害してしまう。
Moreover, if a search keyword is restrict | limited using the technique as disclosed by
また、特許文献3や4、非特許文献5に開示されているような部分非開示技術を用いて文書内の機密情報やプライバシー情報を隠蔽し、索引語として使用しない場合、当該文書の保有者等の適切な権限を持つユーザーが当該文書を検索できなくなってしまう。また、文書内の機密情報やプライバシー情報を索引語として使用する一方で、文書の閲覧時に特許文献3や4、非特許文献5に開示されているような技術を用いて、文書内の機密情報やプライバシー情報を隠蔽することもできる。しかし、この場合、ユーザーが検索時に入力した検索文や当該文書のヒット順位、隠蔽されていない箇所に含まれる情報から、隠蔽されている箇所に含まれる情報を推測できてしまう。例えば、ある人名で検索を実行し、ある文書がヒットして当該文書を開いた際、隠蔽されていない箇所に当該人名が含まれていなければ、隠蔽箇所に当該人名が含まれることは明白である。また、ある人名Aと人名BでOR検索を実行し、ある文書が高順位でヒットし、当該文書の非隠蔽箇所に人名Bのみが含まれていれば、たとえOR検索であっても隠蔽箇所に人名Aが含まれている可能性が高く、部分非開示の有効性が薄れてしまう。
In addition, when confidential information or privacy information in a document is concealed using a partial non-disclosure technique such as disclosed in
以上のことから、機密情報やプライバシー情報を含む文書を取扱うこれまでの情報検索システムにおいては、適切な検索結果を生成できないという課題があった。 From the above, there has been a problem that an appropriate search result cannot be generated in conventional information search systems that handle documents including confidential information and privacy information.
本発明の目的は、ユーザーが検索時に検索文として入力した検索キーワードや論理条件式、検索文に対する文書のヒットの有無やヒット順位、文書内で隠蔽されていない部位に含まれる情報等から、ユーザーが文書内に含まれる機密情報やプライバシー情報を推測することを困難にする検索結果を生成する検索サーバ、情報検索方法、プログラムおよび記憶媒体を提供することにある。 The object of the present invention is based on a search keyword or logical conditional expression entered as a search sentence by a user at the time of search, presence / absence of hit of a document with respect to the search sentence, information included in a part not hidden in the document, etc. It is an object of the present invention to provide a search server, an information search method, a program, and a storage medium that generate a search result that makes it difficult to guess confidential information and privacy information included in a document.
本発明では、前述のような課題を解決するために、文書保持者や管理者が文書内の機密情報やプライバシー情報に対するアクセス権情報を事前に登録し、登録内容を索引語に関連付け、同じ文書に対して索引語や索引語の位置毎に異なるアクセス権を管理する。さらに、検索エンジンが検索キーワードに合致する索引語に対して、検索キーワードを入力したユーザーのアクセス権を確認し、適合する文書リストを作成してスコアリングを行う。 In the present invention, in order to solve the above-described problems, a document holder or administrator registers access right information for confidential information or privacy information in a document in advance, associates the registered contents with an index word, and the same document. In contrast, different access rights are managed for each index word and each index word position. Further, the search engine confirms the access right of the user who has input the search keyword with respect to the index word matching the search keyword, creates a matching document list, and performs scoring.
また別の実施形態として、文書保持者や管理者が文書内の機密情報やプライバシー情報に対するアクセス権情報を事前に登録し、該登録内容とユーザーが入力した検索文の検索キーワード数や論理条件式を基に、検索エンジンの上位プログラムが検索エンジンによる検索およびスコアリング結果に含まれる文書の削除や文書の順位変更を行って、最終的な検索結果を生成する。 As another embodiment, the document holder or administrator registers access right information for confidential information and privacy information in the document in advance, and the number of search keywords and logical conditional expressions in the search contents entered by the registered contents and the user Based on the above, the higher-order program of the search engine deletes the documents included in the search and scoring results by the search engine and changes the order of the documents to generate a final search result.
さらに別の実施形態として、文書保持者や管理者が文書内の機密情報やプライバシー情報に対するアクセス権情報を事前に登録し、検索エンジンの上位プログラムが当該文書の当該機密情報あるいは当該プライバシー情報を隠蔽した別文書を内部で生成し、元文書と紐付け管理して、双方に対して索引を作成する。さらに上位プログラムは、アクセス権情報や紐付け管理情報を基に、検索エンジンによる検索およびスコアリング結果に含まれる文書の削除を行って、最終的な検索結果を生成する。 In yet another embodiment, the document holder or administrator pre-registers access right information for confidential information and privacy information in the document, and a higher-level program of the search engine hides the confidential information or privacy information of the document. The other document is generated internally, linked with the original document, and an index is created for both. Further, the upper program generates a final search result by performing a search by the search engine and deleting a document included in the scoring result based on the access right information and the association management information.
本発明によれば、ユーザーが検索時に検索文として入力した検索キーワードや論理条件式、検索文に対する文書のヒットの有無やヒット順位、文書内で隠蔽されていない部位に含まれる情報等から、ユーザーが文書内に含まれる機密情報やプライバシー情報を推測することを困難にする検索結果を生成する検索サーバ、情報検索方法、プログラムおよび記憶媒体を提供することができる。結果として、文書と当該文書内の機密情報やプライバシー情報の関連性を隠蔽して適切な検索結果を生成可能となり、情報共有と機密保持やプライバシー保護をバランス良く実現することが可能となる。 According to the present invention, the search keyword or logical conditional expression that the user has input as a search sentence at the time of search, the presence or absence of hits of the document with respect to the search sentence, the order of hits, the information included in the part not hidden in the document, etc. Can provide a search server, an information search method, a program, and a storage medium that generate a search result that makes it difficult to guess confidential information and privacy information included in a document. As a result, it is possible to conceal the relevance between the document and the confidential information and privacy information in the document, thereby generating an appropriate search result, and it is possible to realize information sharing, confidentiality protection, and privacy protection in a balanced manner.
以下、本発明の実施形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の実施例1に係る情報検索システムの構成例を示す図である。情報検索システムは、検索サーバ1、複数のクライアントコンピュータ(端末)2、文書共有サーバ3、通信ネットワーク4から構成され、各コンピュータは、通信ネットワーク4を介して接続される。情報検索システムのユーザーは、クライアントコンピュータ2を用いて検索サーバ1に接続し、文書共有サーバ3やクライアントコンピュータ2、検索サーバ1、あるいは図示していないWebサーバ等の他の社内システム上に格納された情報を検索する。通信ネットワーク4は、公衆網、インターネット、ISDN、専用線、LAN等の有線網や、移動通信用基地局や通信用人工衛星等を利用した無線網等によって実現できる。通信ネットワーク4において、各コンピュータは、個々のコンピュータに予め付与された識別情報によって識別され、この識別情報を基に、各コンピュータは他のコンピュータに接続して通信を行う。
FIG. 1 is a diagram illustrating a configuration example of an information search system according to the first embodiment of the present invention. The information search system includes a
図2は、本発明の実施例1に係るクライアントコンピュータ2のハードウェアおよびソフトウェアの構成例を示す図である。クライアントコンピュータ2は、CPU等からなる制御部20、記憶部21、通信ネットワーク4に接続するためのネットワークインタフェース部22、表示部23、入力部24、これらを接続するデータバス25によって構成できる。記憶部21は、半導体メモリ(RAM)等の揮発性記憶装置、あるいはハードディスクやSSD等の読み書き可能な不揮発性記憶装置、光磁気メディア等の読み出し専用不揮発性記憶装置等により実現できる。表示部23はCRTディスプレイや液晶ディスプレイ等、入力部24はキーボードやマウス等により実現できる。クライアントコンピュータ2において、例えば、情報や文書の検索等に伴う演算処理は制御部20によって実行される。制御部20が実行する検索クライアントプログラム210や、検索クライアントプログラム210が使用するデータについては、あらかじめ記憶部21に格納されていてもよいし、他のコンピュータから通信ネットワーク4を介して導入されてもよいし、CD−ROM等の記憶媒体から導入するようにしてもよい。また、検索クライアントプログラム210の機能は、LSI等のハードウェアにより実現してもよい。
FIG. 2 is a diagram illustrating a configuration example of hardware and software of the
検索クライアントプログラム210は、情報検索システムのユーザーに対して情報の検索を行うためのユーザーインタフェースを提供するプログラムであり、例えばウェブブラウザや検索専用アプリケーション等の形態をとることができる。検索クライアントプログラム210は、ユーザーが入力部24を用いて入力した検索文を検索サーバ1に送信し、検索結果を検索サーバ1から受け取って表示部23に表示し、ユーザーに提示する。また、検索クライアントプログラム210は、情報検索システムのユーザーに対して、文書内の機密情報やプライバシー情報(以下、単に機密情報と記す)の登録を行うためのインタフェースを提供する。
The search client program 210 is a program that provides a user interface for searching information to the user of the information search system, and can take the form of, for example, a web browser or a search-dedicated application. The search client program 210 transmits a search sentence input by the user using the
図3は、本発明の実施例1に係る文書共有サーバ3のハードウェアおよびソフトウェアの構成例を示す図である。文書共有サーバ3は、クライアントコンピュータ2と同様に、CPU等からなる制御部30、記憶部31、通信ネットワーク4に接続するためのネットワークインタフェース部32、表示部33、入力部34、これらを接続するデータバス35によって構成できる。記憶部31は、半導体メモリ(RAM)等の揮発性記憶装置、あるいはハードディスクやSSD等の読み書き可能な不揮発性記憶装置、光磁気メディア等の読み出し専用不揮発性記憶装置等により実現できる。表示部33はCRTディスプレイや液晶ディスプレイ等、入力部34はキーボードやマウス等により実現できる。また、文書共有サーバ3は、表示部33や入力部34を省略した構成にすることもできる。また、文書共有サーバ3において、制御部30が実行する文書共有サービスプログラム310や、文書共有サービスプログラム310が使用するデータについては、あらかじめ記憶部31に格納されていてもよいし、他のコンピュータから通信ネットワーク4を介して導入されてもよいし、CD−ROM等の記憶媒体から導入するようにしてもよい。また、文書共有サービスプログラム310の機能は、LSI等のハードウェアにより実現してもよい。
FIG. 3 is a diagram illustrating a configuration example of hardware and software of the
文書共有サービスプログラム310は、情報検索システムのユーザーに対して、電子化された文書やファイル(以下、単に文書と記す)311の格納や読み出しを行うためのインタフェースを提供することで、ユーザー間で文書の共有を可能にするプログラムである。文書共有サービスプログラム310は、例えば、NFSやCIFS等を用いたファイル共有サービスプログラム、あるいはプロプライエタリな文書管理サービスプログラム、あるいは構造化されたデータを格納するデータベースプログラム等の形態をとることが可能である。情報検索システムのユーザーは、クライアントコンピュータ2から検索クライアントプログラム210や文書共有サービスプログラム310を介して文書共有サーバ3上に文書311を格納し、文書共有サービスプログラム310や検索クライアントプログラム210を介して文書311を参照することができる。
The document
図4は、本発明の実施例1に係る検索サーバ1のハードウェアおよびソフトウェアの構成例を示す図である。検索サーバ1は、クライアントコンピュータ2や文書共有サーバ3と同様に、CPU等からなる制御部10、記憶部11、通信ネットワーク4に接続するためのネットワークインタフェース部12、表示部13、入力部14、これらを接続するデータバス15によって構成できる。記憶部11は、半導体メモリ(RAM)等の揮発性記憶装置、あるいはハードディスクやSSD等の読み書き可能な不揮発性記憶装置、光磁気メディア等の読み出し専用不揮発性記憶装置等により実現できる。表示部13はCRTディスプレイや液晶ディスプレイ等、入力部14はキーボードやマウス等により実現できる。また、検索サーバ1は、表示部13や入力部14を省略した構成にすることもできる。また、検索サーバ1において、制御部10が実行する検索サービスプログラム110、クローラープログラム111、検索エンジンプログラム112や、これらプログラムが使用するデータについては、あらかじめ記憶部11に格納されていてもよいし、他のコンピュータから通信ネットワーク4を介して導入されてもよいし、CD−ROM等の記憶媒体から導入するようにしてもよい。また、検索サービスプログラム110、クローラープログラム111、検索エンジンプログラム112の機能は、LIS等のハードウェアにより実現してもよい。
FIG. 4 is a diagram illustrating a configuration example of hardware and software of the
検索サービスプログラム110は、検索クライアントプログラム210や他のプログラムに対して、情報の検索を行うためのインタフェースを提供するプログラムである。検索サービスプログラム110は、ユーザーがクライアントコンピュータ2の入力部24を用いて入力した検索文を検索クライアントプログラム210を介して受け取り、当該検索文を基に検索クエリ(文書の検索要求)を生成して検索エンジンプログラム112に発行する。次いで、検索サービスプログラム110は、検索クエリに対する文書の全文検索結果として文書リストを検索エンジンプログラム112より受け取り、当該文書リストを基に、検索クライアントプログラム210に返すための最終的な検索結果を生成する。検索サービスプログラム110は、最終的な検索結果の生成に当たり、文書や文書の属性、文書名等に含まれ得る機密情報に対するユーザーのアクセス権限を踏まえてアクセス制御を実施し、適切な検索結果を生成し、これを検索クライアントプログラム210を介してユーザーに提示する。また、検索サービスプログラム110は、情報検索システムのユーザーに対して、文書内の機密情報の登録を行うためのインタフェースを検索クライアントプログラム210を介してユーザーに提供する。
The
クローラープログラム111は、文書共有サーバ3に格納された文書およびその付随情報を取得して、検索エンジンプログラム112が文書311の全文検索を行う際に必要とする情報を生成するためのプログラムである。クローラープログラム111は、定期的に文書共有サーバ3にアクセスし、文書共有サービスプログラム310を介して文書共有サーバ3上の文書311を取得する。また、クローラープログラム111は、検索エンジンプログラム112が文書311に対して全文検索を実施するために必要な文書311のインデックス113を作成する。また、クローラープログラム111は、文書共有サーバ3から、文書311と共に、文書に付与されているアクセス権等のセキュリティ属性情報を取得し、このセキュリティ属性情報を、検索サービスプログラム110や検索エンジンプログラム112が文書単位でのアクセス制御を実施する上で利用可能な状態で、検索サーバ1の記憶部11に格納する。また、クローラープログラム111は、辞書を用いた形態素解析や機械学習による固有表現抽出等の公知技術を用いて、取得文書から特徴情報を抽出することができる。
The
検索エンジンプログラム112は、ユーザーがクライアントコンピュータ2の入力部24を用いて入力した検索文を用いて、文書の全文検索を行うためのプログラムである。検索エンジンプログラム112は、クローラープログラム111が作成したインデックス113を使用して、ユーザーが入力した検索文に適合する文書を見つけ出す。また、検索エンジンプログラム112は、検索サービスプログラム110から、検索文に基づき生成された検索クエリを受け取って全文検索を実施した後、検索文に含まれる単語に合致する索引語あるいは索引語の位置毎に、文書内での出現頻度や希少度合いに基づいた値を算出し、その索引語毎の算出値を用いて検索文に対する各文書の適合度をスコアとして算出し、スコア順に文書リストをソートして検索サービスプログラム110に返す。なお、前述したように、検索エンジンプログラム112が、文書単位でのアクセス制御を行い、機密情報を含む文書311を検索結果に列挙する一方、当該文書311の内容の閲覧を制御する方法では、ユーザーが入力した検索文中のキーワードに当該文書311がヒットすることから、ユーザーは当該文書311が当該キーワードを含む事実を把握でき、機密情報漏洩のリスクがある。そのため、本実施例1においては、文書311内の情報の機密度合いに応じて文書311のアクセス権を設定可能とし、検索エンジンプログラム112は、そのアクセス権情報を用いて適切な文書311を抽出およびスコアリングして文書リストを検索サービスプログラム110に返す構成とした。
The
インデックス113は、一般的に、文書311に含まれる単語や文字、文字列の出現箇所を目録として表現したものを指す。特に情報検索分野においては、検索性能の向上のために、単語や文字、文字列毎に、それが出現する文書と文書内の位置を表現する転置インデックスが用いられる。文書311内の単語や文字、文字列の解析においては、例えば、形態素解析やN−gram等が用いられる。また、前述した従来の文書311単位でのアクセス制御の実現方式においては、文書311毎のアクセス権情報をインデックスに関連付けて保持するものもある。
The
ユーザーグループテーブル114には、ユーザーを識別する情報と当該ユーザーが所属するグループとの関係を示す情報が格納されている。本実施例1においては、検索サービスプログラム110が、ユーザーをユーザーを識別する情報によって識別し、さらにユーザーグループテーブル114を用いてユーザーの所属グループを特定し、そのグループの情報を検索クエリと共に検索エンジンプログラム112に渡す。これにより、検索エンジンプログラム112が当該情報を用いて適切な文書を抽出することができる。また、本実施例1においては、検索サービスプログラム110が最終的な検索結果を生成する際に、ユーザーグループテーブル114と後述する機密情報管理テーブル115を参照し、文書名等に含まれる機密情報に対して、グループ単位でのアクセス制御を実施する。これにより、システム管理者はユーザー毎にアクセス権を設定および管理する手間を削減することができる。なお、ユーザーグループテーブル114は、図示していない認証サーバやディレクトリサーバ等の外部システムに格納されていてもよい。
The user group table 114 stores information indicating the relationship between information for identifying a user and a group to which the user belongs. In the first embodiment, the
機密情報管理テーブル115には、文書内の機密情報と当該機密情報のアクセス権に関する情報が含まれる。機密情報管理テーブル115の情報は、ユーザーにより入力された文書内の機密情報およびアクセス権情報が検索クライアントプログラム210と検索サービスプログラム110を介して機密情報管理テーブル115に登録される。また、検索サービスプログラム110は、機密情報とアクセス権を機密情報管理テーブル115に設定するだけでなく、インデックス113にも設定する。検索エンジンプログラム112は、このインデクッス113を用いることにより、ユーザーのアクセス権に応じた適切な文書を抽出することができる。また、検索サービスプログラム110は、最終的な検索結果を生成する際に、機密情報管理テーブル115とユーザーグループテーブル114を参照し、文書名等に含まれる機密情報に対してグループ単位でのアクセス制御を実施する。
The confidential information management table 115 includes confidential information in the document and information regarding the access right of the confidential information. As the information in the confidential information management table 115, confidential information and access right information in the document input by the user are registered in the confidential information management table 115 via the search client program 210 and the
なお、本実施例1においては、検索サービスプログラム110やクローラープログラム111、検索エンジンプログラム112が同一の検索サーバ1内で動作するものとして以降の説明を行うが、本構成に限定するものではない。これらは異なる計算機上で動作して相互に通信ネットワークを介して協調動作してもよい。
In the first embodiment, the following description will be made assuming that the
図5は、本発明の実施例1に係る機密情報管理テーブル115の構成例を示す図である。文書ID401は、情報検索システムにおいて各文書を一意に識別するための識別情報である。フィールド402は、文書の構造を識別するための識別情報であり、例えば「タイトル」や「本文」、「属性」等である。機密情報403は、文書保持者や管理者等によって登録される文書内の機密情報であり、例えばある特定の人名や組織名、場所名、あるいは、ある事実を含む文章等である。同じ文書内あるいはフィールド内に複数の機密情報が含まれる場合は、一つの文書401あるいはフィールド402に対して複数の機密情報403が対応する。位置404は、機密情報403の文書内の位置を示す情報であり、同じ機密情報が文書311内に複数存在する場合は、一つの機密情報403に対して複数の位置情報404が対応する。アクセス権405は、文書311内の個々の機密情報に対するアクセス権情報である。本実施例1では、アクセス権405は、当該機密情報を検索可能なユーザーのグループ情報である。なお、アクセス権405は、ユーザー識別情報や、機密情報の検索の可否や文書の閲覧可否等を示す情報であってもよい。
FIG. 5 is a diagram illustrating a configuration example of the confidential information management table 115 according to the first embodiment of the present invention. The
図6は、本発明の実施例1に係るインデックス113の構成例を示す図であり、特に文書311の本文に含まれる単語を索引語とする転置インデックスの概念例を示す。同様に、文書名等の本文以外の部分に対するインデックスも存在するが、同様の構成であるため図を省略する。また、文書の本文や文書名等を一つのインデックスとする構成であってもよい。このような転置インデックスにおいては、一般的に、単語(索引語)501に対して、当該単語が含まれる文書情報502と文書311内の位置情報503を保持する。なお、図6はリスト構造の組み合わせとなっているが、テーブルあるいは複数のテーブルの組み合わせの形態であってもよい。また、本実施例1においては、文書311内の個々の単語に対してアクセス制御を実現するために、個々の単語の文書311内の位置に対応してアクセス権情報(アクセス許可グループ情報)が関連付けされる。例えば、図6に示す文書Xでは、文書X内の個々の単語(ここでは人名xと単語y)毎にアクセス許可グループ情報504および505が関連付けされており、単語毎にその内容が異なっている。
FIG. 6 is a diagram illustrating a configuration example of the
図7は、本発明の実施例1に係るユーザーグループテーブル114の一例を示す図である。グループ601は、情報検索システムにおいて、ユーザーが所属するグループを一意に識別するための情報(以下、グループ情報と記す)である。また、ユーザー602は、情報検索システムにおいて、ユーザーを一意に識別するための情報(以下、ユーザー識別情報と記す)である。
FIG. 7 is a diagram showing an example of the user group table 114 according to the first embodiment of the present invention. The
図8は、本発明の実施例1に係る文書311内の機密情報を登録するインタフェース(機密情報登録画面)の一例を示す図である。画面701は、文書名の表示部位702、本文の表示部位703、ユーザーあるいはプログラムが指定した機密情報一覧の表示部位704、アクセス許可グループの選択部位705を含む。
FIG. 8 is a diagram illustrating an example of an interface (confidential information registration screen) for registering confidential information in the document 311 according to the first embodiment of the present invention. The
図9は、本発明の実施例1に係る文書内の機密情報登録手順の一例を示すフローチャートである。 FIG. 9 is a flowchart showing an example of the confidential information registration procedure in the document according to the first embodiment of the present invention.
まずユーザーは、図8に示すようなインタフェースを介して文書311内の機密情報に対してアクセス権を設定する(ステップ1001)。機密情報は、ユーザーが入力部24を用いて文書名の表示部位702や本文の表示部位703で指定してもよいし、クローラープログラム111等のプログラムが事前に辞書等を用いて抽出および設定してもよい。あるいは、学習済みの情報を基に文書から抽出し、検索クライアントプログラム210を介して、ユーザーに機密情報の候補(機密情報一覧)704を提示し、ユーザが入力部24を用いてその機密情報一覧704から機密情報を指定するようにしてもよい。機密情報を指定後、ユーザーは、入力部24を用いてその機密情報に対してアクセス権705を設定し、OKボタン706を押下する操作を行うと、検索サービスプログラム110は、文書311中の機密情報と機密情報に対するアクセス権情報を取得し(ステップ1001)、これを機密情報管理テーブル115に登録する(ステップ1002)。
First, the user sets an access right for confidential information in the document 311 via an interface as shown in FIG. 8 (step 1001). The confidential information may be specified by the user using the
つぎに検索サービスプログラム110は、ユーザーがステップ1001において設定した内容を基に、図6で一例を示したような形態で、インデックス113にアクセス権情報を登録する(ステップ1003)。
Next, the
図10は、本発明の実施例1に係る検索の全体処理手順の一例を示すフローチャートである。 FIG. 10 is a flowchart illustrating an example of the entire search processing procedure according to the first embodiment of the invention.
まず検索サービスプログラム110は、ユーザーがクライアントコンピュータ2の入力部24を用いて入力した検索文およびユーザー識別情報を検索クライアントプログラム210を介して受け取る(ステップ1101)。なお、ユーザー識別情報は、検索文の入力前に入力するようにしてもよい。
First, the
つぎに検索サービスプログラム110は、ユーザー識別情報を基にユーザーグループテーブル114を参照し、該当グループ情報を取得し、ステップ1101において受け取った検索文と、取得したユーザーのグループ情報を検索エンジンプログラム112に渡し、検索エンジンプログラムは図11で示す処理手順に従って検索およびアクセス制御を実施する(ステップ1102)。
Next, the
つぎに検索サービスプログラム110は、検索エンジンプログラム112から全文検索結果である文書リストを受け取る(ステップ1103)。ここで、この文書リストに記載される文書名には、機密情報が残っている可能性があるため、これをステップ1104以降で対処する。
Next, the
つぎに検索サービスプログラム110は、機密情報管理テーブル115およびユーザーグループテーブル114を参照し(ステップ1104)、検索文に含まれる単語(キーワード)が、文書リストに列挙される文書名に含まれており、且つ当該ユーザーが所属するユーザーグループにアクセス許可が与えられているかどうかを、文書リストに含まれる文書毎に確認する(ステップ1105)。
Next, the
ステップ1105においてアクセス許可が与えられていないと判定した場合、つぎに検索サービスプログラム110は、当該文書名に含まれる機密情報を削除あるいは伏字等に置換する(ステップ1106)。
If it is determined in
つぎに検索サービスプログラム110は、検索結果を検索クライアントプログラム210を介してユーザーに提示し(ステップ1107)、一連の検索処理を終了する。
Next, the
つぎにユーザーが検索結果中の文書を選択した場合(ステップ1108)、検索サービスプログラム110は、文書単位でのアクセス制御を実施する(ステップ1109)。ユーザーは、その結果に基づいて、文書内容の閲覧を許可あるいは禁止される。
Next, when the user selects a document in the search result (step 1108), the
また、ステップ1105においてアクセス許可が与えられていると判定した場合は、検索サービスプログラム110は、ステップ1107に進む。
If it is determined in
図11は、本発明の実施例1に係る検索エンジンプログラム112による検索の処理手順の一例を示すフローチャートである。
FIG. 11 is a flowchart illustrating an example of a search processing procedure performed by the
まず検索エンジンプログラム112は、検索サービスプログラム110から、ユーザーが入力した検索文および当該ユーザが所属するグループ情報を受け取る(ステップ1201)。
First, the
つぎに検索エンジンプログラム112は、検索文に含まれる単語を抽出する(ステップ1202)。単語の抽出については公知の技術を用いる。例えば日本語であれば形態素解析等を用いることができる。また、検索文を空白等の区切りで分割して単語を抽出してもよい。
Next, the
つぎに検索エンジンプログラム112は、インデックス113を参照し、ステップ1202において抽出した単語に合致する索引語501を含む文書311を一件選択し(ステップ1203)、その選択した文書中の当該単語の個々の位置毎にアクセス許可グループ情報504を確認する(ステップ1204)。
Next, the
つぎに検索エンジンプログラム112は、ステップ1204において確認したアクセス許可グループ情報と、ステップ1201で受け取ったユーザーのグループ情報を比較することで、当該ユーザーがステップ1203で選択した文書311に含まれる索引語に対してアクセス権を持つかどうかを判定する(ステップ1205)。図6および図8で示した通り、インデックス113で索引語の位置を管理しており、同じ索引語が文書内の複数の位置に含まれる場合には、検索エンジンプログラム112は、個々の索引語の文書311内の位置に関連付けられたアクセス許可グループ情報504を用いて、ユーザーのアクセス権の有無を判定する。
Next, the
ステップ1205において、ユーザーが当該単語に合致する文書内の索引語の何れかに対してアクセス権があると判定した場合、つぎに検索エンジンプログラム112は、当該文書を検索サービスプログラム110に渡すための文書リストに追加する(ステップ1206)。
If it is determined in
つぎに検索エンジンプログラム112は、当該単語に対する当該文書のスコアを算出する(ステップ1207)。スコアの算出式は公知のものやプロプライエタリなものを用いて行い、また単語単位ではなく検索文全体に対してステップ1211に示すスコアの算出を行ってもよい。スコアの算出方法としては様々なものがあるが、例えば、公知の非特許文献「Apache Lucene − Scoring、インターネットURL:http://lucene.apache.org/java/2_4_0/scoring.html」に記載の方法を用いることができる。この方法では、ユーザーが入力した検索文中に含まれる単語に合致する索引語毎に、文書内での出現頻度や希少度合いに基づいた値を算出し、その算出した値を基に検索文に対する各文書のスコアを算出する。また、同じ索引語が文書内に複数含まれる場合には、文書内の索引語のうちユーザーがアクセス権を持つと判定されたもののみを踏まえてスコアを算出する。このように、本実施例1では、検索文に対する文書のスコアを算出するにあたり、当該検索文中に含まれる単語に合致する索引語のうち、ユーザーがアクセス権を持つ索引語だけを用いてスコアを算出し、その算出したスコアが高い文書ほど、当該検索文に対して適合度合いが高いと判断する。
Next, the
つぎに検索エンジンプログラム112は、インデックス113を参照し、当該単語に合致する索引語を含む文書が他にまだあるかどうかを確認し(ステップ1208)、ある場合はステップ1203からステップ1207の処理を次の文書に対して行う。
Next, the
一方、ステップ1208において、最後の文書である場合、検索エンジンプログラム112は、検索文を参照し、検索文の中に他の単語がまだ含まれるかどうかを確認し(ステップ1209)、含まれる場合はステップ1202からステップ1208の各処理を次の単語に対して行う。
On the other hand, if it is the last document in
一方、ステップ1209において、最後の単語である場合、検索エンジンプログラム112は、検索文中の個々の単語に対して得られた文書リストを、ユーザーにより指定された検索論理式(検索条件)に応じてマージする(ステップ1210)。検索エンジンプログラム112は、例えば、AND検索の場合は個々のリストの共通文書リストを、OR検索の場合は個々のリストの論理和を生成する。
On the other hand, if it is the last word in
つぎに検索エンジンプログラム112は、文書リストに含まれる文書毎に、検索文に対するスコアを算出し、そのスコアが高い順(適合度が高い順)に並び替え、その結果である文書リストを検索サービスプログラム110に返す(ステップ1211)。
Next, the
また、ステップ1205において、検索エンジンプログラム112は、ユーザーが当該単語に合致する文書内の索引語の何れかに対してアクセス権がないと判定した場合は、ステップ1208に進む。
In
以上、本発明の実施例1について説明した。実施例1によると、文書保持者や管理者が文書内の機密情報やプライバシー情報に対するアクセス権情報を事前に登録し、これを索引語に関連付け、同じ文書に対して索引語や索引語の位置毎に異なるアクセス権を管理する。さらに、検索エンジンプログラム112が検索文中の単語に合致する索引語に対して、検索文を入力したユーザーのアクセス権を確認し、適合する文書リストを作成してスコアリングを行う。これにより、ユーザーは検索文や論理条件式の変更に対する検索結果の順位変動等から、文書と当該文書内の機密情報の関連性を推測困難となり、結果として文書内の機密情報を踏まえた適切な検索結果を生成可能である。
The first embodiment of the present invention has been described above. According to the first embodiment, a document holder or administrator registers access right information for confidential information or privacy information in a document in advance, associates the access right information with an index word, and positions of index words and index words for the same document. Manage different access rights for each. Further, the
本発明を適用する情報検索システムにおいて、他の実施例について説明する。以下、特に説明の無い箇所は実施例1と同じものとする。 Another embodiment of the information search system to which the present invention is applied will be described. In the following, parts not specifically described are the same as those in the first embodiment.
本実施例2は、検索サービスプログラム110が、検索エンジンプログラム112より受け取った文書リスト中の各文書に対して、ユーザーの権限と当該文書に含まれる機密情報に応じて、当該文書の削除あるいは順位変更を行って最終的な検索結果を生成するという点で実施例1とは異なる。すなわち、実施例2では、索引語単位でのアクセス権チェックを必要としない。
In the second embodiment, the
図12は、本発明の実施例2に係るインデックス113の構成例を示すた図である。図12に示すように、例えば、図12に示す文書Xに対して、文書内に含まれる索引語に関わらず一つのアクセス許可グループ情報506のみが関連付けられている。したがって、本実施例2では、検索エンジンプログラム112は、文書単位でのアクセス制御のみを実施する。
FIG. 12 is a diagram illustrating a configuration example of the
図13は、本発明の実施例2に係る検索サービスプログラム110による検索処理手順の一例を示すフローチャートである。
FIG. 13 is a flowchart illustrating an example of a search processing procedure by the
まず検索サービスプログラム110は、ユーザーがクライアントコンピュータ2の入力部24を用いて入力した検索文およびユーザー識別情報を検索クライアントプログラム210を介して受け取る(ステップ1301)。
First, the
つぎに検索サービスプログラム110は、検索文およびグループ情報を検索エンジンプログラム112に渡し、検索エンジンプログラム112は、前述した方法および手順で検索およびスコアリングを行い、文書リストを検索サービスプログラム110に返す(ステップ1302)。
Next, the
つぎに検索サービスプログラム110は、検索エンジンプログラム112より受け取った文書リストから一件の文書を選択する(ステップ1303)。
Next, the
つぎに検索サービスプログラム110は、検索文に含まれる単語が一つかどうかを判定し(ステップ1304)、一つであればステップ1305に、複数であればステップ1309に進む。
Next, the
ステップ1304において、検索文に含まれる単語が一つと判定した場合、検索サービスプログラム110は、機密情報管理テーブル115およびユーザーグループテーブル114を参照し、検索単語が文書内の機密情報に合致し、且つ当該機密情報が複数の位置にある場合はその何れかに対してユーザーがアクセス権を持つかどうかを判定する(ステップ1305)。判定の結果、検索サービスプログラム110は、アクセス権を持つ場合は文書リストに他の文書がまだあるかどうかを確認し(ステップ1306)、アクセス権を持たない場合は処理中の文書を文書リストから削除する処理を行う(ステップ1308)。
If it is determined in
ステップ1306において、検索サービスプログラム110は、文書リストに他の文書が無ければステップ1307に進み、他の文書が有ればステップ1303からステップ1306までの各処理を次の文書について実施する。
In
また、ステップ1306において文書リストに他の文書が無いと判定した場合、検索サービスプログラム110は、ステップ1303からステップ1306において作成した検索結果を検索クライアントプログラム210を介してユーザーに提示する(ステップ1307)。
If it is determined in
また、ステップ1304において検索文に含まれる単語が複数あると判定した場合検索サービスプログラム110は、ユーザーが検索文に含めた複数の検索単語に対してAND検索を行ったのか、OR検索を行ったのかを、ユーザーにより指定された検索論理式から判定する(ステップ1309)。検索サービスプログラム110は、AND検索であればステップ1310に、OR検索であればステップ1311に進む。
If it is determined in
ステップ1309においてAND検索が行われたと判定した場合、検索サービスプログラム110は、機密情報管理テーブル115およびユーザーグループテーブル114を参照し、検索文中に含まれる複数の検索単語の何れかが文書内の機密情報に合致し、且つ当該機密情報が複数の位置にある場合はその何れかに対してユーザーがアクセス権を持つかどうかを判定する(ステップ1310)。判定の結果、検索サービスプログラム110は、アクセス権を持つ場合はステップ1306に進み、アクセス権を持たない場合は処理中の文書を文書リストから削除する(ステップ1308)。
If it is determined in
また、ステップ1309においてOR検索が行われたと判定した場合、検索サービスプログラム110は、機密情報管理テーブル115およびユーザーグループテーブル114を参照し、検索文中に含まれる複数の検索単語の何れかが文書内の機密情報に合致するかどうかを判定する(ステップ1311)。判定の結果、検索サービスプログラム110は、合致する場合は処理中の文書の順位を文書リスト内において降下させ(ステップ1312)、検索単語中の何れも文書内で機密指定された情報に合致しない場合はステップ1306に進む。
If it is determined in
ステップ1312において、降下量は、検索サービスプログラム110が、前述したスコア算出方法により、スコアを再計算し、再計算されたスコアを基に文書リスト内の所定のスコア位置まで下げる。再計算に当たっては、文書内で機密指定された情報のうち、ユーザーがアクセス権を持つものだけを考慮して実施する。なお、降下量については、文書保有者や管理者が事前に定数として定めてもよい。
In
ステップ1312の処理後、検索サービスプログラム110は、検索文中に含まれる検索単語の何れかが処理中の文書名において機密登録された情報に合致するかどうかを判定し、合致する場合はタイトル中の当該情報箇所を削除あるいは伏字で置き換える等の処理を行う(ステップ1313)。
After the processing in
以上、本発明の実施例2について説明した。実施例2によると、文書保持者や管理者が文書内の機密情報に対するアクセス権情報を事前に登録し、該登録内容とユーザーが入力した検索文の検索キーワード数や論理条件式を基に、検索サービスプログラムが検索エンジンによる検索およびスコアリング結果に含まれる文書の削除や文書の順位変更を行うことで、文書内の機密情報やプライバシー情報を踏まえた適切な検索結果を生成可能である。 The second embodiment of the present invention has been described above. According to the second embodiment, a document holder or administrator registers access right information for confidential information in a document in advance, and based on the registered contents and the number of search keywords of a search sentence input by the user and a logical conditional expression, When the search service program deletes the documents included in the search and scoring results by the search engine and changes the order of the documents, an appropriate search result based on confidential information and privacy information in the documents can be generated.
以下、本発明を適用する情報検索システムの他の実施例について説明する。以下、特に説明の無い箇所は実施例1あるいは実施例2と同じとする。 Hereinafter, another embodiment of the information search system to which the present invention is applied will be described. In the following, parts not specifically described are the same as those in the first or second embodiment.
本実施例3は、検索サービスプログラム110が、文書保有者あるいは管理者が機密情報を登録した文書に対して、元文書の複製を内部的に生成し、これを元文書と関連付けて管理し、複製文書については機密登録箇所を索引対象外とした上で双方の文書をインデックスに登録する点で、実施例1および実施例2とは異なる。
In the third embodiment, the
図14は、本発明の実施例3に係る検索サーバ1のハードウェアおよびソフトウェアの構成例を示している。
FIG. 14 shows a hardware and software configuration example of the
文書関係テーブル116には文書間の関係情報が含まれる。本実施例3においては、ユーザーがある文書内の情報を機密登録する場合に、検索サービスプログラム110が当該文書の複製文書を内部で作成し、その複製文書に識別情報を付与する。また、文書関係テーブル116には、新たに作成した複製文書の識別情報と元文書の識別情報とを関連付けて記憶する。
The document relationship table 116 includes relationship information between documents. In the third embodiment, when information in a document is confidentially registered, the
図15は、本発明の実施例3に係る文書関係テーブルの一例を示す図である。文書801は、情報検索システムにおいて文書を一意に識別するための情報である。元文書802は、文書801がユーザーが機密情報を指定した際に新たに生成される元文書の複製文書である場合に、当該複製文書の元文書を一意に識別するための情報を格納する。
FIG. 15 is a diagram illustrating an example of a document relationship table according to the third embodiment of the present invention. The
図16は、本発明の実施例3に係る文書の複製を生成する概念の一例を示す図である。文書保有者あるいは管理者は同じ文書内の複数の機密情報に個別にアクセス許可グループを設定できる。例えば、図16に示す通り、文書Z内の機密情報に対してそれぞれアクセス許可グループを設定すると、機密情報管理テーブル115において901に示すように、ユーザーグループpやユーザーグループq、ユーザーグループrに異なる開示範囲が設定される。この場合、ユーザーグループqとユーザーグループrに所属するユーザーはそれぞれ異なる部分開示制限を受けることになるため、検索サービスプログラム110は、個々の部分開示範囲に応じて最低限二つの複製文書を生成し、これらを文書関係テーブル116において関連付けて管理する。
FIG. 16 is a diagram illustrating an example of a concept for generating a copy of a document according to the third embodiment of the present invention. The document owner or administrator can set an access permission group individually for a plurality of confidential information in the same document. For example, as shown in FIG. 16, when an access permission group is set for each confidential information in the document Z, as shown in 901 in the confidential information management table 115, it is different for the user group p, the user group q, and the user group r. A disclosure range is set. In this case, since the users belonging to the user group q and the user group r are subject to different partial disclosure restrictions, the
図17は、本発明の実施例3に係る文書内の機密情報登録手順の一例を示すフローチャートである。 FIG. 17 is a flowchart showing an example of the confidential information registration procedure in the document according to the third embodiment of the present invention.
まず、ユーザーは、文書保有者あるいは管理者は図8で一例を示したようなインタフェースを介して文書内の機密情報に対してアクセス許可グループを設定する(ステップ1401)。機密情報の指定については、文書保有者や管理者が行ってもよいし、プログラムが提示した候補を基にユーザーが確認し指定してもよい。 First, the user sets the access permission group for the confidential information in the document through the interface as shown in FIG. 8 by the document owner or administrator (step 1401). The confidential information may be designated by the document owner or administrator, or the user may confirm and designate the confidential information based on the candidates presented by the program.
つぎに検索サービスプログラム110は、機密情報が登録された文書に対し、元文書とは別に複製文書を内部で生成する(ステップ1402)。新たに生成する複製文書については、機密指定箇所を削除あるいは伏字での置き換え、暗号化等を実施することで機密情報を隠蔽する。これにより、複製文書内の機密情報については索引付けの対象外とする。
Next, the
つぎに検索サービスプログラム110は、ユーザーがステップ1401において設定した内容を基に、元文書を機密情報管理テーブル115に登録する(ステップ1403)。
Next, the
つぎに検索サービスプログラム110は、元文書とステップ1402で生成した複製文書の双方をインデックス113に登録する(ステップ1404)。前述の通り、複製文書内の機密情報については索引付けされず、非機密箇所のみが索引付け対象となる。
Next, the
図18は、本発明の実施例3に係る検索サービスプログラム110による検索処理手順の一例を示すフローチャートである。
FIG. 18 is a flowchart illustrating an example of a search processing procedure by the
まず検索サービスプログラム110は、ユーザーがクライアントコンピュータ2の入力部24を用いて入力した検索文およびユーザー識別情報を検索クライアントプログラム210を介して受け取る(ステップ1501)。
First, the
つぎに検索サービスプログラム110は、検索文を検索エンジンプログラム112に渡し、検索エンジンプログラム112は、前述したスコア算出方法および手順で検索およびスコアリングを行い、文書リストを検索サービスプログラム110に返す(ステップ1502)。
Next, the
つぎに検索サービスプログラム110は、検索エンジンプログラム112より受け取った文書リストから一件の文書を選択し、ステップ1504〜ステップ1508までを文書毎に実施する(ステップ1503)。
Next, the
つぎに検索サービスプログラム110は、文書関係テーブル116を参照する(ステップ1504)。
Next, the
つぎに検索サービスプログラム110は、処理中の文書に元文書が存在するかどうかを判定する(ステップ1505)。判定の結果、検索サービスプログラム110は、元文書が存在すればステップ1506に、元文書が存在しなければステップ1508に進む。
Next, the
ステップ1505において、処理中の文書に元文書が存在すると判定した場合、検索サービスプログラム110は、機密情報管理テーブル115を参照し、ユーザーが検索文に含まれる一つ以上の単語に合致する元文書内の情報の全てに対してアクセスを許可されているかどうかを判定する(ステップ1506)。判定の結果、検索サービスプログラム110は、アクセス権を持つ場合はステップ1507へ、アクセス権を持たない場合はステップ1510へ進む。
If it is determined in
ステップ1506において、ユーザーがアクセス権を持つと判定した場合、検索サービスプログラム110は、処理中の文書を元文書に関連付けを行う(ステップ1507)。関連付けの手法として、例えば処理中の文書のスコアとは無関係に、処理中の文書を元文書の直下に配置する。
If it is determined in
つぎに検索サービスプログラム110は、文書リストに他にまだ文書があるかどうかを判定し(ステップ1508)、ある場合は次の文書に対してステップ1503以降を実施し、無い場合は、文書リストを検索結果として、検索クライアントプログラム210を介してユーザーに提示する(ステップ1508)。
Next, the
また、ステップ1506において、ユーザーがアクセス権を持たないと判定した場合、検索サービスプログラム110は、処理中の文書を元文書を文書リストから削除し、さらに、当該元文書の処理中の文書以外の複製文書が文書リストにあれば、当該複製文書をリストから削除し(ステップ1510)、ステップ1508に進む。
If it is determined in
実施例3では、検索サービスプログラム110が検索エンジンプログラム112より受け取った文書リスト中の各文書とその元文書に対して、ユーザーの権限と当該文書に含まれる機密情報に応じて検索結果を生成する場合の処理手順の一例を説明したが、本実施例4では、検索エンジンプログラム112が、複製文書とその元文書に対して、ユーザーの権限と当該文書へのアクセス権に応じて文書リストを生成し、検索サービスプログラム110が最終的な検索結果を生成する場合の処理手順の一例を説明する。
In the third embodiment, the
図19は、本発明の実施例4に係る文書内の機密情報登録手順の例を示すフローチャートである。 FIG. 19 is a flowchart illustrating an example of a procedure for registering confidential information in a document according to the fourth embodiment of the present invention.
ステップ1401からステップ1404までの各処理は、図17と同様である。
Each processing from
ステップ1404の処理後、検索サービスプログラム110は、ユーザーがステップ1403において設定した内容を基に、インデックス113に図12で一例を示したような形態でアクセス許可グループ情報を文書単位で登録する(ステップ1605)。
After the processing of
図20は、本発明の実施例4に係る検索サービスプログラム110による検索処理手順のもう一つの例を示すフローチャートである。
FIG. 20 is a flowchart showing another example of the search processing procedure by the
まず検索サービスプログラム110は、ユーザーが検索クライアントプログラム210を介して入力した検索文およびユーザー識別情報を受け取る(ステップ1501)。
First, the
つぎに検索サービスプログラム110は、検索文を検索エンジンプログラム112に渡し、検索エンジンプログラム112は、前述したスコア算出方法および手順で検索および文書単位でのアクセス制御およびスコアリングを行い、文書リストを検索サービスプログラム110に返す。アクセス制御においては、ステップ1605で設定した文書単位でのアクセス権情報を利用する。
Next, the
ステップ1503からステップ1509までの各処理は、図18と同様である。本実施例4においては、事前にステップ1605にて設定した文書単位でのアクセス権情報を用いてステップ1702でアクセス制御を実施し、その時点で元文書と複製文書のうちユーザーに権限のあるもののみが文書リストに含まれて検索サービスプログラム110に渡されるため、図18に示すステップ1510の処理を省略できる。
Each processing from
以上、本発明の実施例3、4について説明した。実施例3、4によると、文書保持者や管理者が文書内の機密情報やプライバシー情報に対するアクセス権情報を事前に登録し、検索エンジンプログラム112の上位プログラムが当該文書の当該機密情報を隠蔽した別文書を内部で生成し、この生成した文書を元文書と関連付けて管理し、双方に対して索引を作成する。また、検索サービスプログラムは、アクセス権情報や上記関連付け情報を基に、検索エンジンによる検索およびスコアリング結果に含まれる文書の削除を行うことで、文書内の機密情報やプライバシー情報を踏まえた適切な検索結果を生成可能である。
The
以上、本発明の実施の形態について、いくつかの実施例を挙げて具体的に説明したが、本発明はこれらの実施例に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 The embodiments of the present invention have been specifically described with reference to some examples. However, the present invention is not limited to these examples, and various modifications can be made without departing from the scope of the present invention. It is.
1・・・検索サーバ、2・・・クライアントコンピュータ(端末)、3・・・文書共有サーバ、4・・・通信ネットワーク、10、20、30・・・制御部、11、21、31・・・記憶部、12、22、32・・・ネットワークインタフェース部、13、23、33・・・表示部、14、24、34・・・入力部、15、25、35・・・データバス。
DESCRIPTION OF
Claims (11)
前記端末から、文書の機密情報と該機密情報に対するアクセス権情報を前記通信ネットワークを介して受信し、該受信情報を前記文書の索引語あるいは該索引語の位置に関連付けて管理する管理部と、
前記端末から、文書の検索要求を前記通信ネットワークを介して受信すると、前記文書の検索要求に含まれる検索文中の単語と前記管理部に基づき、前記索引語あるいは該索引語の位置毎のアクセス権の有無を判定し、該判定によりアクセス権が有る場合に、該索引語を含む文書の情報を列挙した文書リストを作成し、該文書の適合度を算出し、該算出結果に基づき前記文書リスト中の各文書を並べ替え、これを検索結果候補として、前記通信ネットワークを介して前記文書の検索要求元の端末に送信する制御部と、
を有する検索サーバ。 A search server connected to a plurality of terminals via a communication network,
A management unit that receives confidential information of the document and access right information for the confidential information from the terminal via the communication network, and manages the received information in association with the index word of the document or the position of the index word;
When a document search request is received from the terminal via the communication network, the index word or the access right for each position of the index word based on the words in the search sentence included in the document search request and the management unit If there is an access right as a result of the determination, a document list is created in which information of documents including the index word is listed, the degree of conformity of the document is calculated, and the document list is calculated based on the calculation result. A control unit that rearranges each of the documents therein, and transmits this as a search result candidate to the search request source terminal of the document via the communication network;
Search server with
前記文書の機密情報と該機密情報に対するアクセス権情報を前記文書の構造に関連付けて管理し、
前記制御部は、
前記検索結果候補内の文書毎に、前記文書の構造に関連付いた前記アクセス権情報を基に、前記文書の文書名に含まれる機密情報を隠蔽し、これを最終的な検索結果として、前記通信ネットワークを介して前記文書の検索要求元の端末に送信する、
請求項1記載の検索サーバ。 The management unit
Managing confidential information of the document and access right information for the confidential information in association with the structure of the document;
The controller is
For each document in the search result candidate, the confidential information included in the document name of the document is concealed based on the access right information related to the structure of the document, and this is used as a final search result. Transmitting to the search requesting terminal of the document via a communication network;
The search server according to claim 1.
前記端末から、文書の機密情報と該機密情報に対するアクセス権情報を前記通信ネットワークを介して受信し、該受信情報を前記文書の構造および単語に関連付けて管理する管理部と、
前記端末から、文書の検索要求を前記通信ネットワークを介して受信し、前記文書の検索要求に含まれる検索文中の単語と前記管理部に基づき、前記文書の検索要求に合致する文書を検索してこれを全文検索結果とし、さらに前記文書の適合度を算出し、該算出結果に基づき前記全文検索結果を並べ替え、これを検索結果候補として、前記通信ネットワークを介して前記文書の検索要求元の端末に送信する制御部と、
を有する検索サーバ。 A search server connected to a plurality of terminals via a communication network,
A management unit that receives confidential information of the document and access right information for the confidential information from the terminal via the communication network, and manages the received information in association with the structure and words of the document;
A document search request is received from the terminal via the communication network, and a document that matches the document search request is searched based on a word in a search sentence included in the document search request and the management unit. This is used as a full text search result, and the degree of conformity of the document is calculated. The full text search result is rearranged based on the calculation result, and this is used as a search result candidate as a search request source of the document via the communication network. A control unit that transmits to the terminal;
Search server with
ユーザーがアクセス不可の単語を含む文書を前記検索結果候補から削除し、これを最終的な検索結果として、前記通信ネットワークを介して前記文書の検索要求元の端末に送信する、
請求項3記載の検索サーバ。 The controller is
Delete a document containing a word that the user cannot access from the search result candidates, and send this as a final search result to the search requesting terminal of the document via the communication network.
The search server according to claim 3.
前記検索結果候補において、前記ユーザーがアクセス可能な単語を含む文書の出力順位を降下させ、これを最終的な検索結果として、前記通信ネットワークを介して前記文書の検索要求元の端末に送信する、
請求項4に記載の検索サーバ。 The controller is
In the search result candidate, the output rank of the document including the word accessible by the user is lowered, and this is transmitted as a final search result to the terminal that is the search request source of the document via the communication network.
The search server according to claim 4.
前記文書の機密情報と該機密情報に対するユーザーのアクセス権情報に基づき、前記文書を複製し、該複製文書において前記機密情報を隠蔽し、該文書を該文書の作成元となった前記文書とを関連付けて前期管理部に格納し、該各文書を索引付けする、
請求項3に記載の検索サーバ。 The controller is
Based on the confidential information of the document and the access right information of the user for the confidential information, the document is copied, the confidential information is concealed in the copied document, and the document from which the document is created Associating and storing in the previous term management section, indexing each document,
The search server according to claim 3.
前記管理部の情報を基に、前記複製文書の元文書への前記ユーザーのアクセス権の有無を判定し、該判定によりアクセス権が有る場合に、前記検索結果候補において、前記文書を前記元文書に関連付けて並び替え、これを最終的な検索結果として、前記前記通信ネットワークを介して前記文書の検索要求元の端末に送信する、
請求項6に記載の検索サーバ。 The controller is
Based on the information of the management unit, it is determined whether or not the user has an access right to the original document of the duplicate document, and if the access right is determined by the determination, the document is selected as the original document in the search result candidate. Reordering in association with this, and sending this as a final search result to the terminal of the document search request source via the communication network,
The search server according to claim 6.
請求項7に記載の検索サーバ。 Based on the information of the management unit, the presence or absence of the user's access right to the original document of the duplicate document is determined, and if the access right is not determined by the determination, the original document is deleted in the search result candidate. Then, this is transmitted as a final search result to the search request source terminal of the document via the communication network.
The search server according to claim 7.
前記コンピュータが具備する制御部により、
文書の機密情報と該機密情報に対するアクセス権情報を取得し、
該取得情報を前記文書の索引語あるいは該索引語の位置に関連付け、
文書の検索要求を取得し、
前記文書の検索要求に含まれる検索文中の単語と前記関連付け情報に基づき、前記索引語あるいは該索引語の位置毎のアクセス権の有無を判定し、
該判定によりアクセス権が有る場合に、アクセス権を有する索引語を含む文書の情報を列挙した文書リストを作成し、
該索引語を含む前記文書の適合度を算出し、
該算出結果に基づき前記文書リスト中の各文書を並べ替え、これを検索結果候補として出力する、
情報検索方法。 An information retrieval method in a computer,
By the control unit provided in the computer,
Obtain confidential information of the document and access right information for the confidential information;
Associating the acquired information with the index word of the document or the position of the index word;
Get a document search request,
Based on the word in the search sentence included in the search request for the document and the association information, it is determined whether or not there is an access right for each position of the index word or the index word,
If there is an access right according to the determination, a document list that lists information of documents including the index word having the access right is created.
Calculating the fitness of the document containing the index term;
Reordering each document in the document list based on the calculation result, and outputting this as a search result candidate;
Information retrieval method.
文書の機密情報と該機密情報に対するアクセス権情報を取得し、
該受信情報を前記文書の索引語あるいは該索引語の位置に関連付け、
文書の検索要求を取得し、
前記文書の検索要求に含まれる検索文中の単語と前記関連付け情報に基づき、前記索引語あるいは該索引語の位置毎のアクセス権の有無を判定し、
該判定によりアクセス権が有る場合に、アクセス権を有する索引語を含む文書の情報を列挙した文書リストを作成し、
該索引語を含む前記文書の適合度を算出し、
該算出結果に基づき前記文書リスト中の各文書を並べ替え、これを検索結果候補として出力する処理を実行させる、
プログラム。 On the computer,
Obtain confidential information of the document and access right information for the confidential information;
Associating the received information with an index word of the document or a position of the index word;
Get a document search request,
Based on the word in the search sentence included in the search request for the document and the association information, it is determined whether or not there is an access right for each position of the index word or the index word,
If there is an access right according to the determination, a document list that lists information of documents including the index word having the access right is created.
Calculating the fitness of the document containing the index term;
Reordering each document in the document list based on the calculation result, and executing a process of outputting this as a search result candidate;
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009233981A JP2011081642A (en) | 2009-10-08 | 2009-10-08 | Retrieval server, information retrieval method, program and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009233981A JP2011081642A (en) | 2009-10-08 | 2009-10-08 | Retrieval server, information retrieval method, program and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011081642A true JP2011081642A (en) | 2011-04-21 |
Family
ID=44075624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009233981A Pending JP2011081642A (en) | 2009-10-08 | 2009-10-08 | Retrieval server, information retrieval method, program and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011081642A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013171579A (en) * | 2012-02-20 | 2013-09-02 | Solideo Systems Co Ltd | Method for providing data included in bim (building information modeling) data file, recording medium recorded with the same and system including the same and data providing method for bim server |
JP2013196311A (en) * | 2012-03-19 | 2013-09-30 | Fuji Xerox Co Ltd | Document management device and program |
JP2015502617A (en) * | 2011-12-14 | 2015-01-22 | エンパイア テクノロジー ディベロップメント エルエルシー | Semantic cash cloud service for connected devices |
JP2016167145A (en) * | 2015-03-09 | 2016-09-15 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Search system, search method, and computer program |
JP2018109923A (en) * | 2017-01-06 | 2018-07-12 | 富士通株式会社 | Output control program, information processing device, and output control method |
JP2019020794A (en) * | 2017-07-12 | 2019-02-07 | 富士ゼロックス株式会社 | Document management device, document management system, and program |
US11250152B2 (en) | 2017-07-12 | 2022-02-15 | Fujifilm Business Innovation Corp. | Document management apparatus, document management system, and non-transitory computer readable medium |
-
2009
- 2009-10-08 JP JP2009233981A patent/JP2011081642A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015502617A (en) * | 2011-12-14 | 2015-01-22 | エンパイア テクノロジー ディベロップメント エルエルシー | Semantic cash cloud service for connected devices |
US9270736B2 (en) | 2011-12-14 | 2016-02-23 | Empire Technology Development Llc | Semantic cache cloud services for connected devices |
JP2013171579A (en) * | 2012-02-20 | 2013-09-02 | Solideo Systems Co Ltd | Method for providing data included in bim (building information modeling) data file, recording medium recorded with the same and system including the same and data providing method for bim server |
US9043346B2 (en) | 2012-02-20 | 2015-05-26 | Solideo Systems Co., Ltd. | Method of providing data included in building information modeling data file, recording medium therefor, system using the method, and method of providing data using building information modeling server |
JP2013196311A (en) * | 2012-03-19 | 2013-09-30 | Fuji Xerox Co Ltd | Document management device and program |
JP2016167145A (en) * | 2015-03-09 | 2016-09-15 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Search system, search method, and computer program |
JP2018109923A (en) * | 2017-01-06 | 2018-07-12 | 富士通株式会社 | Output control program, information processing device, and output control method |
JP2019020794A (en) * | 2017-07-12 | 2019-02-07 | 富士ゼロックス株式会社 | Document management device, document management system, and program |
US11163903B2 (en) | 2017-07-12 | 2021-11-02 | Fujifilm Business Innovation Corp. | Document management apparatus, document management system, and non-transitory computer readable medium |
JP7009802B2 (en) | 2017-07-12 | 2022-01-26 | 富士フイルムビジネスイノベーション株式会社 | Document management equipment, document management systems and programs |
US11250152B2 (en) | 2017-07-12 | 2022-02-15 | Fujifilm Business Innovation Corp. | Document management apparatus, document management system, and non-transitory computer readable medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9576005B2 (en) | Search system | |
US20120173511A1 (en) | File search system and program | |
AU2015303991C1 (en) | Multi-user search system with methodology for personal searching | |
US7200593B2 (en) | Document management system | |
JP4625334B2 (en) | Information processing apparatus, information processing method, information processing program, recording medium, and resource management apparatus | |
JP2011081642A (en) | Retrieval server, information retrieval method, program and storage medium | |
US20130036348A1 (en) | Systems and Methods for Identifying a Standard Document Component in a Community and Generating a Document Containing the Standard Document Component | |
US20100318489A1 (en) | Pii identification learning and inference algorithm | |
RU2604677C2 (en) | Creating access control policy based on consumer privacy preferences | |
Seifert et al. | Ubiquitous access to digital cultural heritage | |
JP5592747B2 (en) | File search device and file search program | |
Tonon et al. | Voldemortkg: Mapping schema. org and web entities to linked open data | |
JPH10187542A (en) | System and method for managing document security | |
JP3702268B2 (en) | Information search system, information search method and program | |
CN112136121A (en) | Recommending secure content | |
JP2002259387A (en) | Document retrieving system | |
JP2021149600A (en) | Information processing device and program | |
JP5017405B2 (en) | Regulation management device and program | |
Wollatz et al. | Curation of image data for medical research | |
GB2558548A (en) | A computer data encoding system | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method | |
JP7081232B2 (en) | Profile management system, information management method, program, information processing equipment | |
JP7247688B2 (en) | Information processing device, information processing system, and information processing program | |
JP5197179B2 (en) | Data management device | |
Grivell | Seek and you shall find? |