JP2004164555A - Apparatus and method for retrieval, and apparatus and method for index building - Google Patents

Apparatus and method for retrieval, and apparatus and method for index building Download PDF

Info

Publication number
JP2004164555A
JP2004164555A JP2003075724A JP2003075724A JP2004164555A JP 2004164555 A JP2004164555 A JP 2004164555A JP 2003075724 A JP2003075724 A JP 2003075724A JP 2003075724 A JP2003075724 A JP 2003075724A JP 2004164555 A JP2004164555 A JP 2004164555A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
index
search
record
hit
number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003075724A
Other languages
Japanese (ja)
Inventor
Minoru Ikeda
Atsushi Kadona
Shigehisa Kawabe
Masao Nukaga
Takashi Osawa
隆 大澤
惠久 川邉
稔 池田
敦 門奈
雅夫 額賀
Original Assignee
Fuji Xerox Co Ltd
富士ゼロックス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide retrieval/index building technology, which enables users to perform high-speed retrieval, without producing security problems, even when users perform integrated retrieval over document filing in various security domains. <P>SOLUTION: When a retrieval request is required from a retrieval user terminal 15, a retrieval part 10 transmits user ID of the retrieval user to an access controller 11 and the access controller 11 returns access authority of the retrieval user by referring to a user authority storage part 12. The access controller 11, for example, refers to a table, which specifies relations between access rights and their corresponding indexes, and then returns an identifier (or identifiers) for an index 14 referable with the access authority of the retrieval user to the retrieval part 10. The retrieval part 10 extracts a record hit with reference to the index 14, which is approved based on the identifier of the referable index 14, and returns it to the retrieval user terminal 15. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
この発明は、複数の文書ファイリングから、文書を取り出して、検索のためのインデクスを構築し、複数の文書ファイリングに存在する、複数の文書の属性や、URLなどで示される文書の位置を、一元的に管理し、検索可能な統合検索データベースに関し、とくに、文書ファイリングの個々のセキュリティドメインを考慮した管理・検索を行えるようにしたものである。 The present invention, a plurality of document filing, retrieves the document, to construct an index for the search, in more than one document filing, attributes and a plurality of documents, URL location of the document indicated by like centrally to manage relates searchable integrated search databases, in particular, is obtained so as to perform the management and search in consideration of individual security domain of the document filing.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
従来、分散環境において、独立して管理され、開示される複数の文書ファイリングをまたがって、論理的に唯一のインデクスを構築し、インデクスに対して、一回の検索操作で、複数の文書ファイリングに存在する、複数の、文書の属性や、URLなどで示される文書の位置を、一元的に管理し、検索が可能なデータベースが構築されている。 Conventionally, in a distributed environment, it is managed independently, across a plurality of document filing disclosed, building a unique index logically relative index, in a single search operation, a plurality of the document filing present, the plurality, and attributes of the document, the position of the document indicated URL, etc., centralized control, search is a database is built. このような検索を統合検索と呼ぶ。 Such a search is referred to as integrated search.
【0003】 [0003]
統合検索のためのインデクス構築に際して、検索操作と独立して行われる収集操作によって、複数の文書ファイリングから、文書が収集される。 In index construction for integrated search, the search operation and independently collecting operation is performed, a plurality of document filing, document are collected. 収集操作は、収集対象とする文書ファイリングから、所定のアクセス権を有するユーザ、またはアプリケーションが、所定のネットワークプロトコルで、文書名を指定するか検索を行って、文書を特定し取得する。 Collection operation, the document filing that are being collected, the user has a given access rights or application, is at a predetermined network protocol, perform a search to specify a document name, identifying the document to retrieve. 取得した文書を解析し、インデクス構築に必要な属性やキーワードを作成して、インデクスを構築する。 Analyzing the acquired document, to create the attributes and keywords required to index construction, building the index.
【0004】 [0004]
なお、この発明と関連する特許文献には、複数のデータベースにそれぞれ格納されている文章データを解析し必要項目を抽出し抽出結果をインデクス化し、単一のインデクスで複数のデータベースにアクセスすることを開示するものや(特許文献1)、記憶装置に記憶されている複数のファイルの各々から所定の情報を取得するとともに権限情報も取得し所定の情報と権限情報とを用いてインデクスを構築してユーザの権限に応じた範囲でしか検索が行われないようにすることを開示するもの(特許文献2)がある。 Incidentally, Patent Document associated with the present invention, and indexed the analyzes text data to extract the required information extraction results stored in a plurality of databases, to access multiple databases with a single index disclose or (Patent Document 1), to build an index using acquires the predetermined information from each of a plurality of files stored in the storage device the acquired predetermined information to the authority information and the permission information those search only within the range according to the user's authority to disclose that you not performed (Patent Document 2).
【特許文献1】 [Patent Document 1]
特開2000−163445公報【特許文献2】 JP 2000-163445 Publication [Patent Document 2]
特開2001−344245公報【0005】 JP 2001-344245 Publication [0005]
【発明が解決する課題】 [Problems that the Invention is to solve]
ところで、統合検索は、インターネットのように、公開するかしないか、2者択一の環境で、広く用いられるが、これを企業内のネットワークで提供するには、以下に示す課題がある。 Meanwhile, integrated search, as the Internet, whether or not to publish, in 2's alternative environments, although widely used, this to provide a network in a company has a problem described below.
【0006】 [0006]
一般に、企業内で公開される文書または文書ファイリングは、公開範囲を指定して、公開される。 Generally, document or document filing exposes the enterprise, specifying the publication range is published. たとえば、「部外秘」の文書は、部門メンバーに限定的に公開されていると考えられるし、Webサーバなどは、部門ごとに設定されているネットワークドメインを利用して、接続可能なクライアントを限定することが行われている。 For example, the document of the "confidential" is to be considered to be limited to the public in the department members, such as a Web server, using the network domains that have been set for each department, the clients can connect to be limiting is being performed.
【0007】 [0007]
特定の単位で収集された複数の文書が、同一の公開範囲を指定している場合、その文書は、同一のセキュリティ上のドメインに属している。 A plurality of documents collected in the particular unit, if you specify the same opening range, the document belongs to a domain on the same security. 文書ごとに定まる公開範囲をセキュリティドメインと呼ぶ。 A public range determined for each document is referred to as a security domain. 企業内では、複数のセキュリティドメインが存在し、収集対象とする文書は、いずれかのセキュリティドメインに属する。 Within the company, there are multiple security domains, the document to be a collection target, belongs to one of the security domain.
【0008】 [0008]
先に述べた統合検索を提供するためには、収集操作が必要であり、収集のためには、対象とする文書や文書ファイリングが属するセキュリティドメインのアクセス権が必要となる。 In order to provide an integrated search that previously described, the collection operation is required, for the collection, access security domain document or document filing of interest belongs is required. すなわち、統合検索の対象とする、すべての文書や文書ファイリングに対する特権的なアクセス権を有するものが、収集操作を行う必要がある。 That is, the object of integrated search, those with privileged access to all documents and document filing, it is necessary to collect operation.
【0009】 [0009]
しかし、通常は、企業内では、このような広い範囲の特権的なアクセス権をシステム管理者またはソフトウェアシステムに与えることはセキュリティ上問題がある(課題1)。 However, usually, in the enterprise is to provide privileged access such a wide range of system administrator or software system has a security problem (problem 1).
【0010】 [0010]
さらに、論理的に唯一のインデクスを構築するため、文書ごとにセキュリティドメインを管理できるインデクスを構築する必要がある。 Moreover, for building unique index logically, it is necessary to construct an index that can manage a security domain for each document. そうしないと、本来アクセス権をもたないセキュリティドメインの文書が検索結果に含まれてしまうため、セキュアでない検索となる。 Otherwise, since the document of security domains that do not have the original access rights would be included in the search results, the search is not secure.
【0011】 [0011]
加えて述べれば、検索をしたユーザのアクセス権と、文書ごとに定まる、セキュリティドメインの比較、判定をする必要があり、検索処理が複雑になるため、検索性能が下がる。 Stated In addition, the access rights of the user who searches determined for each document, comparing the security domain, it is necessary to the determination, the search process because is complicated, retrieval performance is lowered. 企業内の統合検索では、100万乃至数千万の文書を検索対象とする場合があり、このような大規模な検索を、高速に行うのが困難となる。 The integrated search within a company, may be searched documents 1,000,000 to tens of millions, such a large search, it becomes difficult to perform at high speed. この場合は、利用者からみたレスポンスが低下する(課題2)。 In this case, the response as seen from the user is reduced (Problem 2).
【0012】 [0012]
この発明は、以上の事情を考慮してなされたものであり、種々のセキュリティドメインの文書ファイリングにわたって統合検索を行う場合でも、セキュリティの問題を生じさせることなく、かつ、高速の検索が可能な検索・インデクス構築技術を提供することを目的としている。 The present invention has been made in consideration of the above circumstances, even when performing the integrated search across document filing various security domains, without causing security issues, and search capable of high-speed search - it is an object of the present invention to provide an index construction techniques.
【0013】 [0013]
【課題を解決するための手段】 In order to solve the problems]
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。 According to the present invention, in order to achieve the above object, it adopts the configuration of the as described in the appended claims. ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。 Here, prior to describing the invention in detail, previously subjected to supplementary description of the appended claims.
【0014】 [0014]
上記に示した課題を解決するために、本発明の原理的な構成では、収集対象のセキュリティドメインごとに、該セキュリティドメインに所属する管理者か、または、アクセス権を有する管理者が文書を収集し、インデクスを構築する。 In order to solve the problems indicated above, the principle configuration of the present invention, collected for each security domain of the collection target, the administrator belongs to the security domain, or, the administrator with access rights to the document and, to construct the index. 具体的には、収集プログラムに、すべてのセキュリティドメインに有効な権限を与えるのではなく、それぞれのセキュリティドメインから収集するのに必要な権限を与えられた収集プログラムを、各々のセキュリティドメインにて稼動させる。 More specifically, the collection program, rather than providing effective permissions for all security domains, the collection program given the necessary authority to collect from each of the security domain, operating at each of the security domains make.
【0015】 [0015]
すなわち、一つのセキュリティドメインに対して、一つのインデクスを対応付けるように構成する。 That is, one with respect to the security domain, configured to associate a single index. これらインデクスは、データモデルが同一で、論理的には一つのインデクスで、その中がセキュリティドメインで分割されているという構成となる。 These indexes, the data model is the same, a single index is logically, a structure that therein is divided in the security domain.
【0016】 [0016]
このように構成した複数のインデクスは、特定のコンピュータシステム内に集中して、管理する構成と、セキュリティごとに管理部門を設け、分散的に配置する構成がある。 Thus a plurality of indexes which is constructed is concentrated within a particular computer system configuration and to manage, the administrative department is provided for each security, there is a configuration in which the dispersion arranged.
【0017】 [0017]
いずれの構成においてもインデクスごとに定められた管理者は、特定のインデクスに対する限定された閲覧、更新、バックアップ、リストア操作を許すようにすることで、さきの課題1が解消する。 Administrator determined for each index in either configuration, viewing a limited to a particular index, update, backup, by the allow the restore operation, previous problems 1 is eliminated.
【0018】 [0018]
次に、課題2について説明する。 Next, a description will be given challenges 2.
【0019】 [0019]
アクセス制御は、一般に、アクセス主体(サブジェクト)がアクセス対象(オブジェクト)に対するアクセス操作をもって、モデル化される。 Access control is typically access subject (subject) is with an access operation for the access target (object), are modeled. アクセス制御リストと呼ばれる方法は、アクセス対象ごとの属性として、アクセス主体と(その主体に許される)アクセス操作の組のリストを持つことで具現化される。 Method called an access control list, as an attribute for each access target, be embodied by having access subject and a list of pairs of access operations (permissible to the principal). 主体の対象に対する操作は、対象ごとに付与されたアクセス制御リストを、走査または検索し、アクセス制御リストに、該主体と操作の組が含まれるかどうかを調べ、含まれていたら、アクセスが許される。 Operation on the subject of interest, an access control list that is given to each subject, the scanning or searching the access control list, to determine whether includes a set of main body and the operation, if not, access is permitted It is.
【0020】 [0020]
本発明の原理的な構成では、アクセス対象は、セキュリティドメインごとに構築されたインデクスである。 In principle configuration of the present invention, the access subject is an index built for each security domain. アクセス操作は、検索とする。 Access operations, and search. アクセス主体は、検索を行うユーザである。 Access subject is a user to perform a search. アクセス制御リストは、インデクスの属性として、検索を許すユーザのリストで構成し、アクセス制御データベースで一元管理する。 Access control list, as an attribute of the index, and consists of a list of users to allow search and consolidated in the access control database.
【0021】 [0021]
本発明の検索操作を実現する方法を説明する。 Illustrating a method for realizing a search operation of the present invention.
【0022】 [0022]
検索を行うユーザが、セキュリティドメインに対して検索が許されるインデクスのリストを、アクセス制御データベースから検索する。 User to search is a list of index search against security domain is allowed, it searches the access control database. インデクスを保持するコンピュータに対して、検索要求を発行し、検索処理を行い、検索結果を得る。 The computer that holds the index, issues a search request, performs a search process to obtain the search results. 複数のインデクスに対する検索結果は、複数のコンピュータから複数の検索結果を得る。 It results for a plurality of indexes to obtain a plurality of search results from multiple computers. 所定のタイムアウト時間が経過するのを待ち、複数の検索結果を、併合して、統合した検索結果を構成する。 Wait for the lapse of a predetermined timeout period, a plurality of search results, are merged to form a search result integration.
【0023】 [0023]
この発明では、一つのインデクスに格納されている文書は、同一のセキュリティドメインに属する文書であるため、該セキュリティドメインにアクセス可能なユーザからの検索要求に対しては、個別の文書ごとにアクセス権のチェックを行う必要がない。 In the present invention, the documents stored in a single index, for a document belonging to the same security domain, for the search request from the user who can access to the security domain, access to each individual document there is no need to perform the check. 一方、統合された検索結果を構成するには、併合の必要があり、その分の処理コストが必要となる。 On the other hand, to configure the integrated search results, it must merge processing cost of that amount is required.
【0024】 [0024]
一般には、収集された総文書数に対して、検索を行うユーザがアクセス可能なセキュリティドメインに属する文書が、少ない場合は、個別にアクセス権のチェックを行う必要がある文書数は、インデクスの単位で枝狩りされた結果、少なくなるため、併合のコストを勘案しても、短い時間で検索処理ができる。 Generally, the total number of documents that were collected, documents belonging to the user can access security domain to search is case small, the number of documents in which it is necessary to check the individual access rights, the unit of the index in pruning it has been a result, since the reduced, even in consideration of the cost of merging can search processing in a short time.
【0025】 [0025]
たとえばアクセス可能な文書が半分以下の場合、すべての文書に対してアクセス権を調べるコストに対して、検索結果を併合するコストは、少ないことが期待できる。 For example if documents accessible is less than half, relative to the cost of examining the access to all the documents, the cost of merging the search results can be expected less.
【0026】 [0026]
次に本発明の他の原理的な構成について説明する。 Next will be described another principle construction of the present invention.
【0027】 [0027]
検索したユーザに対して、得られた検索結果をすべて表示するのではなく、所定のランキング計算を行った結果として得られる、ランキングスコアの大きい文書について、所定の表示上限件数に限定して、表示を行うことを考える。 Respect retrieved user, instead of displaying all the resulting search results obtained as a result of the predetermined ranking calculation for large document ranking score, is limited to a predetermined display limit number, the display Given that perform.
【0028】 [0028]
ユーザからみて、検索結果に、不当に低いランキングスコアの文書が含まれないようにするために、表示上限件数に対して、所定の倍率をかけた値を要求件数とし、要求件数だけ、検索結果を取り出し、ランキング計算を行い、降順にソートを行い、上位から表示上限件数だけ取り出して表示を行うものとする。 Viewed from the user, search results, in order to prevent contains documents unreasonably low ranking score, the display upper limit number of, and request count value obtained by multiplying a predetermined magnification, the request number only, the search results was removed, performs ranking calculation, to sort in descending order, it is assumed that the display is taken out only the display upper limit number of the upper.
【0029】 [0029]
セキュリティドメインごとに定まるインデクスに対して、検索要求を出す際に、要求件数を指定し、検索結果は、表示上限件数の検索結果と、ヒット件数を返すように構成する。 Relative index determined for each security domain, when issuing the search request, to specify the request number, the search results, the search results display upper number and configured to return the number of hits.
【0030】 [0030]
複数のインデクスからの検索結果を併合する際に、いずれか一つのインデクスからの検索結果が、要求件数以上のヒット件数である場合には、該インデクスからの検索結果を、(他のインデクスからの検索結果と併合せずに)統合検索結果として採用する。 When merging the search results from the plurality of indexes, the search results from one of the index is, in the case of the hit count of the above request number is the search result from the index, from (other index results without merging with) is adopted as integrated search results.
【0031】 [0031]
該インデクスからの検索結果が、要求件数に満たない場合は、それ以外のインデクスの検索結果を、要求件数に達するまで併合し、ランキングスコアで降順にソートを行い、上位から表示件数だけ取り出して表示を行う。 Results from the index is, if less than the requested number, the search results for other indexes, merged until a request number, to sort in descending order in the ranking scores, removed from the upper display only Number I do.
【0032】 [0032]
すべてのインデクスの検索結果を併合しても、要求件数に満たない場合は、すべてのインデクスの検索結果を併合してランキングスコアで降順にソートを行い、上位から表示件数だけ取り出して表示を行う。 Even if it merges the results of all of the index, if you do not meet the request number is, to sort in descending order in the ranking score to merge the results of all of the index, perform the display is taken out only display the number from the host.
【0033】 [0033]
以上のように、構成することで、統合後の検索結果が要求件数に対して、多い場合、特に、一つのインデクスからの検索結果が要求件数に対して多い場合は、併合の処理を減らすか、行わないので、処理時間が短くなる。 As described above, by constituting or the search result after integration request number, if large, in particular, when the search results from one index is larger for the requested number reduces the processing merged , is not performed, the processing time is shortened.
【0034】 [0034]
本発明の更に他の原理的な構成では、複数のインデクスを用いて検索を行う検索装置において、各インデクスから取得した、スコアを含むヒットレコードをスコアに基づいて各インデクスごとにソートし、ソートした上記スコアを含むヒットレコードを所定の規則で連結し、連結した上記スコアを含むヒットレコードをスコアに基づいて再度ソートし、再度ソートした後のヒットレコードの上位の所定数を検索結果として出力するようにしている。 In still another principle construction of the present invention, in a search device for searching using a plurality of indices were obtained from the index, and sorted based hit record containing a score to the score for each index, sorted hit record containing the score was ligated with a predetermined rule, the hit record containing the score linked sorted again based on the scores, to output as a search result a predetermined number of higher hit record after sorting again I have to.
【0035】 [0035]
この構成においては、インデクスごとにスコアを計算しソートを行うので、複数のインデクスに対して分散処理が可能であり、応答性を高め、スケーラビリティを確保することができる。 In this configuration, since the sorting calculates a score for each index, it is capable of distributed processing for multiple indexes, increased responsiveness, it is possible to ensure scalability. また、インデクスごとにソートしたヒットレコードを連結する際に、インデクスごとのヒットレコードの処理対象上限値を定めておけば、不必要なヒットレコードをヒットレコード連結部に送る必要がなくなり、例えば通信コストを低減することが可能となる。 Further, when connecting the hit records sorted by index, if determined the processed upper limit of hit records per index, there is no need to send unnecessary hit record hit record connecting portion, for example, communication cost it becomes possible to reduce the.
【0036】 [0036]
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。 The present invention is not only can be realized as an apparatus or system may also be implemented as a method. また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。 Moreover, it is a matter of course that may form part of such invention as software. またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。 The software product to be used in order to execute such software to the computer also is of course also included in the technical scope of the invention.
【0037】 [0037]
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。 Other aspects of aspects and the invention of the above the invention is set forth in the appended claims, is described in detail with reference to the following examples.
【0038】 [0038]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、この発明の実施例について説明する。 Hereinafter, a description will be given of an embodiment of the present invention.
【0039】 [0039]
[実施例1] [Example 1]
実施例1は複数のインデクスを用いアクセス権限に応じて検索を制御するものである。 Example 1 is for controlling the search in accordance with the access rights using a plurality of indexes.
【0040】 [0040]
図1は、実施例1の検索装置を模式的に示しており、この図において、検索装置は、検索部10、アクセス制御部11、ユーザ権限記憶部12およびインデクス記憶装置13を含んで構成されている。 1, the retrieval device of Example 1 is shown schematically, in this figure, the search unit is configured to include a search unit 10, the access control unit 11, the user authorization storage unit 12 and the index storage unit 13 ing. インデクス記憶装置13は、複数のインデクス(便宜上A〜Nを付す)14を記憶している。 Index storage unit 13 stores a plurality of indices (for convenience denoted by the A to N) 14. 複数のインデクス14はそれぞれ異なるレベルのアクセス権限が付与されている。 A plurality of indexes 14 different levels access rights, respectively they are applied. もちろん、同一のアクセス権限が複数のインデクス14に付与され、同一のアクセス権限のグループとして管理されても良い。 Of course, the same access right is given to the plurality of index 14, it may be managed as a group of identical access privileges. 1つのインデクス記憶装置13にすべてのインデクス14を記憶するのでなく、複数のインデクス記憶装置13を設け、分散させて記憶するようにしても良い。 Rather than storing all of the index 14 to one of the index storage unit 13, a plurality of index storage unit 13 is provided, it may be stored by dispersing. この実施例の検索装置には検索ユーザ端末15から検索要求が送られ、検索結果が検索ユーザ端末15に返される。 This is the search device of the embodiment is sent a search request from the search the user terminal 15, the search results are returned to the search user terminal 15.
【0041】 [0041]
インデクス記憶装置13のインデクス14は、後述するインデクス構築装置(図2)により構築・管理される。 Index 14 of the index storage unit 13 is constructed and managed by index construction apparatus described later (FIG. 2).
【0042】 [0042]
この実施例において、検索ユーザ端末15から検索要求がなされると、検索部10はアクセス制御部11に検索ユーザのユーザID等を供給し、アクセス制御部11は、ユーザ権限記憶部12を参照して検索ユーザのアクセス権限を返す。 In this embodiment, when a search request is made from the search the user terminal 15, the search unit 10 supplies the user ID or the like of the search user to the access control unit 11, the access control unit 11 refers to the user authorization storage section 12 It returns the access authority of the search user Te. アクセス制御部11は、例えば、アクセス権限とそれに対応するインデクスとの関係を規定した表を表引きして、検索ユーザのアクセス権限で参照可能なインデクス14の識別子(複数の場合もある)を検索部10に返す。 The access control unit 11, for example, by table lookup table that defines the relationship between the access authority and the index corresponding thereto, searches the identifiers of referable index 14 in access search user (s) return to part 10. 検索部10は、参照可能なインデクス14の識別子に基づいて許容されるインデクス14を参照してヒットしたレコードを取りだし、検索ユーザ端末15に返す。 Searching unit 10 extracts the record hit by referring to the index 14 which is allowed on the basis of the identifier of the referable index 14, and returns to the search user terminal 15. ヒットしたレコードを、ランキングスコアに基づいて整理し、所定の表示数のレコードのみ検索ユーザ端末15に返すようにしてもよい。 Hit record, organize based on the ranking score may be returned only to search the user terminal 15 a predetermined number of display records.
【0043】 [0043]
この例では、インデクス14を参照してヒットしたレコードは、すべてアクセス可能なものであり、ヒットしたレコードについて個々にユーザのアクセス権限を検証する必要がない。 In this example, the record hit by referring to the index 14 are all those accessible, there is no need to verify the access rights of the user individually for the hit record.
【0044】 [0044]
なお、検索ユーザが指定したインデクス14あるいはすべてのインデクス14に対して検索部10が参照要求を行い、アクセス制御部11が、ユーザ権限記憶部12のユーザのアクセス権限を参照して参照の許否を行うようにしても良い。 Incidentally, the search unit 10 performs a reference request to the index 14 or all of the index 14 is searched user-specified access control unit 11, the permissibility of reference refers to the access rights of the user of the user authorization storage section 12 it may be performed.
【0045】 [0045]
つぎにこの実施例のインデクス構築装置について説明する。 It will now be described index builder of this embodiment.
【0046】 [0046]
図2は、この実施例のインデクス構築装置を模式的に示しており、この図において、インデクス構築装置は、プロセス起動部20、インデクスレコード管理部21、アクセス制御部23、プロセス権限記憶部24を含んで構成されている。 Figure 2 is the index builder of this embodiment shown schematically in this figure, index builder, the process starting unit 20, the index records management unit 21, the access control unit 23, the process rights storage unit 24 is constituted comprise. プロセス起動部20は、予めアクセス権限が設定されている。 Process startup unit 20 is pre-access settings. プロセス起動部20は、インデクスレコード管理部21のインデクスレコード管理プロセス22を起動し、プロセス起動部20のプロセスを付与する。 Process startup unit 20 starts the index records management process 22 of the index records management unit 21, imparts a process process startup unit 20. ユーザあるいは管理者がインデクスレコード管理部21のインデクスレコード管理プロセス22を起動し、そのアクセス権限を付与するようにしても良い。 User or administrator starts the index records management process 22 of the index records management unit 21, may be assigned the access rights. 起動されたインデクスレコード管理プロセス22は、文書を保持する文書ファイリングシステム103(図3参照)にアクセスし、自らのアクセス権限で許容される文書を参照してインデクスレコードを生成する。 The activated index records management process 22 accesses the document filing system 103 for holding the document (see FIG. 3), generates an index record with reference to a document that is allowed by its own access. 文書ファイリングシステム103の文書へのアクセスはアクセス制御部23およびプロセス権限記憶部24により制御される。 Access to documents of the document filing system 103 is controlled by the access control unit 23 and the process permission storage part 24. こうしてインデクスレコード管理プロセス22は、自らのアクセス権限に対応する(同等以下の)セキュリティドメインの文書のインデクスレコードを生成して、インデクス記憶装置13中の対応するアクセス権限のインデクス14を構築したり、修正(挿入・削除)したりする。 Thus index records management process 22 generates an index record documents that their corresponding access rights (equivalent or lower) security domain, or build an index 14 of the access authority corresponding in index storage unit 13, modify (insert, delete) or. このインデクス14の構築・修正の処理についてもアクセス制御部23およびプロセス権限記憶部24により制御される。 Is controlled by the access control unit 23 and the process permission storage unit 24 also processes the construction and modification of the index 14.
【0047】 [0047]
このようにしてアクセス権限ごとにインデクス14が構築・管理される。 Such index 14 is constructed and managed to each access privileges.
【0048】 [0048]
図3は、実施例1の検索装置およびインデクス構築装置をイントラネット環境で実現した構成例を示す。 Figure 3 shows an example configuration which realizes the search unit and index construction device of Example 1 in an intranet environment. 図3において、検索システム100、複数のインデクス構築システム102、複数の文書ファイリングシステム103、ディレクトリサーバ104、ウェブサーバ105、アプリケーションサーバ106、クライアント端末120等が、LAN108に配置されている。 3, the search system 100, a plurality of index construction system 102, a plurality of document filing system 103, the directory server 104, web server 105, application server 106, the client terminal 120 and the like, are arranged on LAN 108. またLAN108にはルータ107、ネットワーク121を介してクライアント端末120が接続されている。 Also in LAN108 router 107, the client terminal 120 via the network 121 are connected.
【0049】 [0049]
検索システム100はインデクス保持部101を有し、複数のインデクス(図1のインデクス14)を参照できる。 The search system 100 includes an index storage unit 101 can refer to multiple indexes (index 14 in FIG. 1).
【0050】 [0050]
検索システム100、インデクス構築システム102はそれぞれ記憶媒体109、110、あるいはネットワーク121を用いてインストールされる。 Retrieval system 100, index construction system 102 is installed with each storage medium 109 or the network 121,.
【0051】 [0051]
文書ファイリングシステム103は全体として単一のアクセス権限が付与されていても良いし(例えば103A)、文書ファイリングシステム103の個々の文書あるいはディレクトリにアクセス権限が個別に付与されても良い。 It single access rights may be granted as a whole document filing system 103 (e.g. 103A), access rights to individual documents or directories of the document filing system 103 may be granted separately. 文書ファイリングシステム103Aとインデクス構築システム102Aは例えば同一のアクセス権限を有し、対応するセキュリティドメイン200をなす。 Document filing system 103A and index construction system 102A has the same access rights for example, form a corresponding security domain 200. 他のファイリングシステム103は種々のアクセス権限の文書等を含み、それぞれ、アクセス権限に対応するインデクス構築システム102によりインデクスレコードを生成できるようになっている。 Other filing system 103 includes a document or the like of different access rights, respectively, and to be able to generate an index record by index construction system 102 corresponding to the access authority.
【0052】 [0052]
インデクス構築システム102は対応するアクセス権限で各文書ファイリングシステム103の文書をアクセスしていき、文書ファイリングシステム103はディレクトリサーバ104を用いて権限を認証し、アクセスの許否を決定する。 Index construction system 102 continue to access the documents in the document filing system 103 in the corresponding access right, the document filing system 103 authenticates the authority using a directory server 104 determines whether to permit access. インデクス構築システム102は、対応するアクセス権限の文書を参照してインデクスレコードを生成して、インデクス保持部101の対応するインデクス14を構築し、あるいは対応するインデクスにレコードを挿入する。 Index construction system 102 generates an index record in the documentation of the corresponding access rights, and construct the corresponding index 14 of the index storage unit 101, or to insert a record into the corresponding index. また、必要に応じ、インデクスのレコードの削除等の処理を行う。 Further, if necessary, performs processing such as deleting the index records.
【0053】 [0053]
このようにして、インデクス保持部101にアクセス権限ごとにインデクス14が構築されその後管理される。 In this way, the index 14 for each access to the index storage unit 101 is constructed is then managed.
【0054】 [0054]
検索ユーザはクライアント端末120を用いてウェブサーバ105およびアプリケーションサーバ106(あるいはCGIプログラム等を用いて)を介して検索システム100に検索要求を行う。 Search user performs a search request to the search system 100 via the web server 105 and application server 106 (or using the CGI program, etc.) using the client terminal 120. 検索システム100は、ディレクトリサーバ104を用いて検索ユーザのアクセス権限を調べ、これに応じて対応するインデクス14を参照して検索ユーザに許容されるヒットレコードのみをリストとしてクライアント端末120に返す。 Search system 100 checks the access authority of searchers using the directory server 104 returns only to the client terminal 120 as a list hits records allowed to search the user by referring to the corresponding index 14 accordingly. 検索ユーザは、リストから選択した文書を所定の文書ファイリングシステム103から取り出すことができる。 Search the user can retrieve the document selected from the list from the given document filing system 103.
【0055】 [0055]
なお、インデクス保持部101をインデクス構築システム102サイトに分散して配置し、検索システム100がこれを参照するようにしても良い。 Incidentally, arranged dispersed index holding portion 101 to the index construction system 102 site, the search system 100 may be reference. また、インデクス構築システム102サイトに検索システム100およびインデクス保持部101を分散配置してもよい。 Further, the search system 100 and the index storage unit 101 to the index construction system 102 sites may be distributed. この場合、クライアント端末120の検索要求を代行して分散配置された複数の検索システム100にディスパッチする。 In this case, dispatching a plurality of retrieval system 100 are distributed on behalf of the search request of the client terminal 120.
【0056】 [0056]
[実施例2] [Example 2]
つぎにこの発明の実施例2について説明する。 It will now be described a second embodiment of the present invention. この実施例は複数のインデクスを用いた場合でも、ランキングスコアの小さなヒットレコードが表示リストに含まれないようにするものである。 This embodiment even when a plurality of indexes, in which small hit record ranking score can be prevented in the display list.
【0057】 [0057]
図4は、この実施例の検索装置を模式的に示しており、この図において、検索部10は、インデクス別ヒットレコード数生成部30、インデクス選択部31、ヒットレコード併合部32、ヒットレコード一時記憶部33、表示レコード出力部34等を含んで構成されている。 Figure 4 is a search apparatus of this embodiment is shown schematically in this figure, the search unit 10, the index-specific hits record number generator 30, the index selector 31, the hit record merging portion 32, at a hit record one storage unit 33, is configured to include a display record output unit 34 or the like.
【0058】 [0058]
検索ユーザ端末15は、検索部10に検索要求を送る。 Search user terminal 15 sends a search request to the search unit 10. 検索要求には検索キーと共に表示レコードの数を含ませることができる。 Search The request can include a number of display records with the search key. インデクス別ヒットレコード数生成部30は、検索キーに対してインデクス14ごとにヒットレコード数を算出する。 Index by hit record number generator 30 calculates the number of hits record for each index 14 to the search key. これについては後に説明する。 This will be explained later. インデクス選択部31は、指定された表示レコード数あるいはデフォルトの表示レコード数に基づいてインデクス記憶装置13から取り出すヒットレコード数を決定する。 Index selecting section 31 determines the number of hits records retrieved from the index storage unit 13 based on the number of display records specified display record number or default. これを閾値と呼ぶ。 This is referred to as the threshold. 閾値は、表示レコード数のN倍である(Nは十分に精度の良い結果を得られるように決められる)。 Threshold is N times the number of display records (N is determined so as to obtain a good enough accurate results). インデクス選択部31は、最も少ないインデクス数で閾値のヒットレコードを得られるようにインデクスを選択する。 Index selecting section 31 selects an index so as to obtain a threshold hit records in the smallest index number. 種々の態様が可能であるが、例えば、ヒットレコード数が多い順にインデクスを選び、それで閾値に達したら、そのインデクスのみを選ぶ。 It is susceptible to various aspects, for example, select an index to the number of hit records in descending order, so reaches the threshold, choosing only the index. ヒットレコード数が閾値に達しない場合には、つぎにヒットレコード数が多いインデクスを選び、そのヒットレコード数を、現在のヒットレコード数の総数に累積する。 If the number of hits record does not reach the threshold, then select the number of hits records is large indexes, the number of the hit record, accumulate the total number of the current number of hits records. 累積値が閾値に達するまで、同様の処理を繰り返し、用いる1または複数のインデクスを確定する。 The cumulative value reaches a threshold value, repeating the same process, to determine one or more indices used.
【0059】 [0059]
用いるインデクスが複数の場合にはヒットレコードをヒットレコード併合部32で併合し、ヒットレコード一時記憶部33にストアする。 Index used by the case of multiple merges hit record hit record merging unit 32, stores the hit record temporary storage unit 33. 用いるインデクスが一個の場合にはヒットレコードをそのままヒットレコード一時記憶部33にストアする。 Directly stored in the hit record temporary storage unit 33 to hit record when the index used by the one.
【0060】 [0060]
ヒットレコード一時記憶部33のヒットレコードはそこの含まれるランキングスコアに基づいてソートされ、ソート順に表示レコード出力部34に送られる。 Hit record hit record temporary storage unit 33 is sorted by ranking score included the therein and sent to the sort order on the display record output unit 34. 表示レコード出力部34の出力表示レコードリストは検索ユーザ端末15に返される。 Output display record list display record output unit 34 is returned to the search user terminal 15.
【0061】 [0061]
こうして、ヒットレコードの併合処理の回数を少なくすることができる。 Thus, it is possible to reduce the number of merging of hit records.
【0062】 [0062]
つぎに、インデクス別ヒットレコード数生成部30で行うヒットレコード数算出処理について説明する。 Next, a description will be given number hit record calculation process performed by the index-specific hit record number generator 30. もちろん、キーごとにヒットレコード数を予め求めて表を作成し、このような表を表引きしても良い。 Of course, to create a table obtained in advance the number of hit records for each key, it may be looked up such a table.
【0063】 [0063]
インデクス記憶装置13のインデクス14は、例えば、図5に示すように、管理ノード、中間ノードおよびリーフノードにより記述されるB+ツリー構造である。 Index 14 of the index storage unit 13, for example, as shown in FIG. 5, the management node, a B + tree structure is described by the intermediate nodes and leaf nodes. 管理ノードは、図6に示すように、複数のB+ツリーを管理する。 Management node, as shown in FIG. 6, for managing a plurality of B + trees. 各B+ツリーはスキーマによりキー、バリュー等のバイト数等が規定される。 Each B + tree key by the schema, the number of bytes such as value is defined. 管理ノードにより、検索キーが対応するB+ツリーに振り分けられる。 By the management node, the search key is distributed to the corresponding B + tree. 中間ノードは、図7に示すように、分岐を制御するキーと分岐する下位ノード(サブツリー)が規定される。 Intermediate node, as shown in FIG. 7, the lower node (subtree) is defined for branching a key for controlling the branch. また、この実施例に特有の構成として、各下位ノードについてそのサブツリーのリーフノードに属するレコードの数を件数管理情報として保持している。 Also held as the characteristic construction of the number of records belonging to the leaf nodes of the subtree for each lower node as the number management information in this embodiment. リーフノードは図8に示すようにキーとバリュー(例えば文書ID)との複数の対を含んでいる。 Leaf node includes a plurality of pairs of a key and value (e.g., document ID) as shown in FIG. リーフノードは、中間ノードにおいて分岐を制御するキーについても、そのキーとバリューとの対を含んでいる。 Leaf nodes, for keys that control the branching at intermediate nodes includes a pair of the key and value. また、つぎのリーフノードへのポインタも含まれ、いわゆる水平検索を行える。 It also contains a pointer to the next leaf node, it performs a so-called horizontal search.
【0064】 [0064]
検索に際しては、図9に示すように、管理ノードによりB+ツリーが決定され、そのルートノードから中間ノードを沿って垂直検索が行われ、リーフノードに当直した後、水平検索が行われる。 In the search, as shown in FIG. 9, B + tree is determined by the management node, the vertical search from the root node along the intermediate node is performed, after duty leaf nodes, the horizontal search is performed.
【0065】 [0065]
ここで、図10を用いて、中間ノードの件数管理情報について説明する。 Here, with reference to FIG. 10, a description will be given number management information of the intermediate node. 図10において、中間ノードは、第1段目の中間ノード(管理ノードのつぎのノード)を例にすると、キー「LEFT」、K(0) 、K(0) 、K(0) 、・・・により下位ノード(サブツリー)に分岐する。 10, intermediate node, the first stage of the intermediate node (next node of the management node) as an example, the key "LEFT", K (0) 1, K (0) 2, K (0) 3 and branches to the lower node (subtree) by .... キー「LEFT」の直下にはレコードは格納されない。 Record directly below the key "LEFT" is not stored. 「K(0)」は第1段目のキーであることを示す。 "K (0)" indicates that it is the key of the first stage. 第n段目の中間ノードのキーは同様に「K(n−1)」で表す。 The key of the n-th intermediate node likewise represented by "K (n-1)". 「LEFT」からK(0)1までの範囲のキーが分岐する下位ノード(サブツリー)のリーフノードに格納されるレコードの数R(0) を、下位ノード0の件数管理情報にストアする。 The number R (0) 1 of the records that are stored in the leaf nodes of the lower node (subtree) to key branch in the range from "LEFT" K (0) of up to 1, to store on the number management information of a lower node 0. K(0) からK(0) までの範囲のキーが分岐する下位ノード(サブツリー)のリーフノードに格納されるレコードの数r(0) を求め、これにその前の下位ノードのレコードの数(この場合R0)を足して、R(0) =R(0) +r(0) を得、下位ノード1の件数管理情報に格納する。 K (0) from 1 K (0) range of keys to 2 obtains a number r (0) 1 of records stored in the leaf nodes of the subordinate node (subtree) that branches, this of the preceding subnode by adding the number of records (in this case R0), to give the R (0) 1 = R ( 0) 1 + r (0) 1, and stores the number management information of a lower node 1. キーK(0) からキーK(0) N+1までの範囲のキーが分岐する下位ノードNのリーフノードに格納されるレコードr(0) を求め、これにその直前の下位ノードN−1の件数管理情報(R(0) N−1 )を足して、下位ノードNの件数管理情報R(0) =R(0) N−1 +r(0) を得る。 Key K (0) key N K (0) N + record r (0) to be stored in the leaf nodes of the lower node N 1 to a range of key branches seek N, this lower node of the immediately preceding N-1 by adding the number management information (R (0) N-1 ), to obtain the number management information R (0) N = R ( 0) N-1 + r (0) N lower nodes N. 同様に最後の下位ノードまで、件数管理情報を取得して管理する。 Similarly to the end of the lower node, acquiring and managing number management information.
【0066】 [0066]
開始キーおよび終了キーを用いて検索するときに、中間ノードの件数管理情報を用いてリーフノードに到達した時点の順位を求めることができる。 When searching using a start key and end key, it is possible to determine the order of the time it reaches the leaf node with the number management information of the intermediate node. すなわち、順次辿っていく中間ノードにおいて、つぎに辿る下位の中間ノードを決定する。 That is, in successively traversed intermediate node, determining a lower intermediate node to follow next. このとき、その左側の中間ノードの件数管理情報を求める。 At this time, we obtain the number management information of the left intermediate node. つぎに辿る中間ノードでも同様にし、この操作をリーフノードに至るまで繰り返す。 Then follow the same in the intermediate node, it is repeated until the operation to the leaf node. 例えば、第1段から第N段のそれぞれのキーK(0) 、K(1) 、K(2) 、・・・、K(N−1) を辿っていくとすると、中間ノード0のキー(下位のノードまたはサブツリー。以下同様)K(0) A−1の件数管理情報R(0) A−1 、中間ノード1のキーK(1) B−1の件数管理情報R(1) B−1 、中間ノード2のキーK(2) C−1の件数管理情報R(2) C−1 、・・・中間ノード(N−1)のキーK(N−1) D−1の件数管理情報R(N−1) D−1を累積してリーフノードに到達したときレコードの順位を得ることができる。 For example, each key K (0) A N-th stage from the first stage, K (1) B, K (2) C, ···, K (N-1) When traced to D, the intermediate node 0 key (lower node or subtree. the same applies hereinafter) K (0) number management information R (0) of a-1 a-1, the key K (1) of the intermediate node 1 B-1 of number management information R (1) B-1, the number management information R (2) C-1 of the key K (2) C-1 of the intermediate node 2, the key K of ... intermediate node (N-1) (N- 1) D -1 count management information R to (N-1) D-1 accumulated can be obtained record ranking when reaching the leaf node.
【0067】 [0067]
まず、開始キーを基づいて中間ノードを辿り、対応する件数管理情報を累積してリーフノードに到達したときのレコードの順位を求め、さらにリーフノードを水平検索する。 First, follow the intermediate node based on the start key, obtains the record in the order of when it reaches the leaf node by accumulating corresponding number management information, the horizontal search further leaf node. 開始キーを含むレコードに到達したときにそのレコードに至るまでの水平検索時のレコード数を求め、これをリーフノードに到達したときのレコードの順位に足して開始キーを含むレコード(開始キーを含むレコードがない場合には、検索範囲に含まれて開始キーに最も近いキーを含むレコード)の順位(Nstart)を求める。 Obtains the number of records when the horizontal search up to the record when it reaches the record containing the start key, containing records (start key including a start key by adding a record of the order of when they reach this leaf node If there is no record, we obtain the rank (Nstart) records) including the nearest key to start key is included in the search range.
【0068】 [0068]
つぎに、終了キーに基づいて中間ノードを辿り、対応する件数管理情報を累積してリーフノードに到達したときのレコードの順位を求め、さらにリーフノードを水平検索する。 Then follows the intermediate node based on the end key, obtains the record in the order of when it reaches the leaf node by accumulating corresponding number management information, the horizontal search further leaf node. 終了キーを含むレコードに到達したときにそのレコードに至るまでの水平検索時のレコード数を求め、これをリーフノードに到達したときのレコードの順位に足して終了キーを含むレコード(開始キーを含むレコードがない場合には、検索範囲に含まれて開始キーに最も近いキーを含むレコード)の順位(Nend)を求める。 Obtains the number of records when the horizontal search up to the record when it reaches the record containing the end key, containing records (start key including the end key by adding a record of the order of when they reach this leaf node If there is no record, we obtain the rank (Nend) records) including the nearest key to start key is included in the search range.
【0069】 [0069]
インデクス別ヒットレコード数生成部30は、NstartおよびNendに基づいて検索範囲に含まれるキーを持つレコードの総数を算出する。 Index by hit record number generator 30 calculates the total number of records with the key included in the search range based on the Nstart and Nend. 終了キーを含むレコードが有る場合には、そのレコードの総数はNend−Nstart+1であり、終了キーを含むレコードがない場合には、そのレコードの総数はNend−Nstartである。 If the record including the end key is present, the total number of the record is a Nend-Nstart + 1, if there is no record that contains the end key, the total number of the record is Nend-Nstart.
【0070】 [0070]
図11は、インデクス別ヒットレコード数生成部30における各インデクスごとのヒットレコード数算出処理を示している。 Figure 11 illustrates a hit record number calculation processing for each index in the index by the hit record number generator 30. 図11においては、語および文書IDを用いて範囲検索における検索範囲のレコード(文書)の総数を算出する。 11 calculates the total number of records (document) in the search range in the range search using the word and document ID. 総数の算出の処理は以下のとおりである。 Processing of the total number of calculation is as follows. なお、検索者が語を入力すると、文書IDの範囲が自動的に0x3000(16進数表示)から0x3fffとされる。 Incidentally, when the searcher enters a word, the scope of the document ID is automatically 0x3fff from 0x3000 (16 hexadecimal number).
【0071】 [0071]
[ステップS10]:検索範囲を受け取る。 [Step S10]: receiving a search range.
[ステップS11]:B+ツリーを決定する。 [Step S11]: determining a B + tree.
[ステップS12]:開始キーを検索キーとする。 [Step S12]: and the start key search key.
[ステップS13]:検索キーが該当するキーを、選択する[ステップS14]:順位算出ルーチンを実施する。 [Step S13]: The key is the search key corresponding to select [Step S14]: implementing a rank calculation routine. 図9参照。 See Figure 9.
[ステップS15]:順位算出ルーチンで取得した順位をNstartとする。 [Step S15]: The ranking obtained in order calculating routine to Nstart.
[ステップS16]:終了キーを検索キーとする。 [Step S16]: and the end key search key.
[ステップS17]:順位算出ルーチンを実施する。 [Step S17]: implementing a rank calculation routine.
[ステップS18]:順位算出ルーチンで取得した順位をNendとする。 [Step S18]: The ranking obtained in order calculating routine and Nend.
[ステップS19]:終了キーに該当するレコードがあるか。 [Step S19]: whether or not there is a record that corresponds to the end key. あればステップS20ヘ進み、なければステップS21へ進む。 Step S20 proceed f If so, the process proceeds to step S21 if not.
[ステップS20]:検索範囲の件数をNend−Nstart+1で算出する。 [Step S20]: calculating the number of search ranges Nend-Nstart + 1.
[ステップS21]:検索範囲の件数をNend−Nstartで算出する。 [Step S21]: the number of search ranges is calculated by the Nend-Nstart.
【0072】 [0072]
順位算出ルーチンはつぎのとおりである。 Position calculation routine is as follows.
【0073】 [0073]
[ステップS40]:順位を0にリセットする。 [Step S40]: Reset rank to zero.
[ステップS41]:中間ノードにおいて検索キーが該当するキーの左のキーの件数管理情報を順位に累積する。 [Step S41]: accumulating the number management information of the left key of the key search key at the intermediate node corresponds to order.
[ステップS42]:検索キーが該当するキーの下位のノードに進む。 [Step S42]: search key proceeds to the lower node of the corresponding key.
[ステップS43]:ノードが中間ノードかリーフノードかを判別する。 [Step S43]: node determines whether intermediate nodes or leaf nodes. 中間ノードであれば、ステップS41に戻る。 If an intermediate node, the process returns to the step S41. リーフノードであればステップS44に進む。 If a leaf node, the process proceeds to step S44.
[ステップS44]:リーフノードに到達したときのレコードから検索キーに対応するキーのレコードまで水平検索で辿る。 [Step S44]: followed by horizontal search from the record when it reaches the leaf node to the record of the key corresponding to the search key.
[ステップS45]:水平検索で辿ったレコードの数を上述の順位に累積する。 [Step S45]: accumulating the number of records traced by the horizontal search of the above order.
【0074】 [0074]
以上で実施例2の説明を終了する。 The end of the description of Example 2 above.
【0075】 [0075]
[実施例3] [Example 3]
つぎにこの発明の実施例3について説明する。 It will now be described a third embodiment of the present invention. この実施例は、インデクスを用いた検索処理を行う検索装置本体と検索装置本体の検索結果を連結等する検索管理装置とをネットワークを介して接続して検索システムを構築するものである。 This embodiment is intended to construct a search system connected via a network and a search management device for connecting such a search process and the search device body for searching apparatus Results body using the index.
【0076】 [0076]
図13は、実施例3の検索システムを全体として示しており、図13において図3と対応する箇所には対応する符号を付した。 Figure 13 shows the entire search system of Example 3 was subjected to the corresponding code in the portion corresponding to FIG. 3 in FIG. 13. 図13において、検索システム100は、検索管理サーバ300と複数の検索サーバ301とを有して構成されている。 13, the search system 100 is configured and a search management server 300 and a plurality of search servers 301. 検索サーバ301はそれぞれ対応するインデクス保持部302を有し、例えばこのインデクス保持部302に格納されているB+ツリーの情報(実施例1、2と同様)を用いて検索を行う。 Search server 301 has the index holding unit 302 corresponding respectively, a search is performed using, for example, B + tree information stored in the index holding unit 302 (as in Example 1 and 2). 検索管理サーバ300は、クライアント120からの検索要求を受取り、アクセス制御等を行うとともに、検索要求に対して許容された検索サーバ301に検索要求をディスパッチする。 Retrieval management server 300 receives a search request from the client 120, performs an access control or the like, to dispatch a search request to the search server 301 allowed for the search request. 検索管理サーバ300は、検索要求をディスパッチした検索サーバ301から検索結果を受取り、出力上限値(例えばユーザが指定したもの。あるいはシステム上のデフォルト値)だけヒットレコードを取り出して検索結果としてクライアント端末120に返す。 Retrieval management server 300, the search request receives a search result from the search server 301 dispatches, the output upper limit value (such as those specified by the user. Alternatively default value of the system) the client terminal 120 as just taking out the hit record Results return to.
【0077】 [0077]
図14は、実施例3の検索システム100における処理を示しており、その詳細は以下のとおりである。 Figure 14 shows the processing in the search system 100 of the third embodiment, the detail is as follows. なお、これらの処理は検索管理サーバ300および検索サーバ301で実行されるものであり、例えば記録媒体303、304に記憶されたプログラムを検索管理サーバ300や検索サーバ301にインストールして実現できる。 These processes are intended to be executed by the search management server 300 and the search server 301 can be realized by installing such as stored in a recording medium 303, 304 programs in the search management server 300 and the search server 301.
【0078】 [0078]
[ステップS50]:各検索サーバ301でインデクス保持部302のインデクスを用いて検索を行う。 [Step S50]: to search using the index of the index holding unit 302 in the search server 301. なお、各検索サーバ301は、出力制限値(ユーザに出力するレコードの数の上限)の例えば10倍のレコード数を上限としてレコードを取り出す(上限値を超えたら検索を終了する)。 Each search server 301 (the search ends When exceeding the upper limit value) is taken out a record as the upper limit the number of records, for example, 10 times the output limit value (upper limit of the number of records to be output to the user). このレコードは例えば図15に示すようなキーとバリューとを含むものであり、キーは語キー(キーワード等の文書の属性)および文書IDからなる。 This record is intended to include the values ​​and keys as shown in FIG. 15, for example, the key consists of the word key (document attributes such as keywords) and the document ID. バリューは各レコードの検索スコアを算出するためのオカレンスデータであり、例えば、更新時刻、出現頻度、出現分布のデータからなる。 Value is the occurrence data for calculating the search score for each record, for example, update time, frequency, consisting of occurrence distribution data. オカレンスデータからスコアを計算し、このスコアに基づいてヒットレコードをソートする。 The scores were calculated from the occurrence data, sorts the hit record based on this score.
【0079】 [0079]
[ステップS51]:検索管理サーバ300は、検索サーバ301からソート済みのヒットレコードを受け取る。 [Step S51]: search management server 300 receives the sorted hit records from the search server 301. 受け取るレコードはスコアを直接に含み、オカレンスデータは基本的には不要である。 Records received directly to include scores, occurrence data is basically unnecessary.
[ステップS52]:ソート済みのヒットレコード数が多い順に、検索サーバ301からのヒットレコードを連結する。 [Step S52]: in sorted order hits record there are many of, linking the hit records from the search server 301.
[ステップS53]:連結したヒットレコードの総数が累積上限値、例えば、出力上限値の10倍に達したかどうかを判別する。 [Step S53]: Ligated total number of hits record cumulative limit, for example, to determine whether reached 10 times the output upper limit value. 累積上限値に達しない場合にはステップS52に戻り処理を繰り返す。 If does not reach the accumulation upper limit value and repeats the process returns to step S52. 達した場合にはステップS54へ進む。 In the case has been reached, the process proceeds to step S54.
[ステップS54]:連結したヒットレコードをスコアで再度ソートする。 [Step S54]: to sort the hit record that was linked again in the score.
「ステップD55]:出力上限値だけ上位からヒットレコードを出力する。 "Step D55]: to output a hit record from the host only the output upper limit value.
【0080】 [0080]
各レコードのスコアは例えばつぎのように算出される。 Score for each record is calculated as follows, for example.
【数1】 [Number 1]
{A1×(出現密度)+A2×(更新日−基準日)}×(出現分布情報で決定される値。例えば1〜2の値) {A1 × (appearance density) + A2 × (Updated - date)} × (. The value determined by the occurrence distribution information, for example, 1 to 2 values)
A1、A2は係数である。 A1, A2 are coefficients.
【0081】 [0081]
出現密度は、キーワードが文書中に含まれる割合であり、例えば、定数×出現数/文書サイズで求められる。 Occurrence density is the ratio of keywords contained in the document, for example, it is determined by the constant × number of occurrences / document size. 出現密度が大きいほどスコアが大きくなる。 As the score increases appearance density is large.
【0082】 [0082]
更新日は文書を更新した日付であり、原則として基準時は検索を行っている日付に「2048」(約4年)を足したものである。 The revision date is the date you update the document, the reference time as a rule is obtained by adding "2048" to date have done a search (about four years). 「日付」は例えば0〜32767の整数値であり、およそ、1970年1月1日から2038年1月19日をカバーする。 "Date" is an integer value of, for example, 0 to 32767, approximately, to cover the January 19, 2038 from January 1, 1970. 1日は1.3に相当する。 One day is equivalent to 1.3. 通常、更新日は数カ月から数年程度前の日付である。 Normally, the update date is the date of the previous order of months to years. 更新日をそのまま用いると、約30年分使用しない期間ができてしまうので、ダイナミックレンジが小さくなってしまう。 With the renewal date as it is, so she can have a period not to use about 30 years, the dynamic range is reduced. そのため検索実行日から4年前(約2048)を基準日としている(更新日−基準日=更新日−検索実行日+2048)。 Therefore four years ago from the search execution date (about 2048) are used as the reference date (renewal date - date = Date of renovation - search execution date +2048). 更新日が新しいほどスコアは大きくなる。 Update date about new score is increased.
【0083】 [0083]
出現分布情報は、文書中の文の列に語キーがどのように分布するかを示すものであり、文の列を32ビットであらわし、当該文の位置に語キーが出現すれば「1」を立てる。 Occurrence distribution information indicates whether the column the word key sentences in the document how to distribution represents a column of text in 32-bit, if the appearance is the word key position of the sentence "1" the stand. 文の数だけビットを設ければより性格であるが、この例では、語キーが出現する文の番号の32の剰余が示すビット位置に「1」を立てている。 Are more personality be provided bit by the number of sentences, in this example, is making a "1" in bit position indicated by the 32 remainder of the label of a statement is the word key appears. 複数の語キーを用いたときに32ビットの出現分布情報のANDをとり、同一文中に当該複数の語キーが共起するかどうかを表す。 It takes the AND of the 32-bit occurrence distribution information when using a plurality of word keys represents whether the plurality of word keys co-occur in the same sentence. AND結果の32ビットの各値を評価すればより正確であるが、8ビットずつに4つのフラグメントに分け、1つのフラグメント中に「1」があれば25%ずつ増分する。 Is a more accurate if evaluate each value of the 32-bit AND result, divided into four fragments into 8-bit, "1" is incremented by 25% if in one fragment. 4つのフラグメントのすべてに「1」があれば2倍となり、すべてのフラグメントに「1」がなければ1倍のままである。 In all four of the fragments will be doubled if there is a "1", it remains at 1 times if there is no "1" to all of the fragments.
【0084】 [0084]
また、スコアが同一の値にならないように、スコアに文書サイズの下位数ビットを連結する。 Also, as the score is not the same value, connecting the lower bits of the document size to the score.
【0085】 [0085]
図16は、スコア計算の一例を示している。 Figure 16 shows an example of score calculation. この例では、「コピー」と「富士ゼロックス株式会社」(「富士ゼロックス」は商標である)のOR検索を行って、文書A、B、Cがヒットした例である。 In this example, "copy" and "Fuji Xerox Co., Ltd." ( "Xerox" is a trade mark) by performing an OR search, documents A, B, an example of C is hit. 検索日は「2002年8月1日」である。 Search date is "August 1, 2002".
【0086】 [0086]
文書Aのスコアはつぎのとおりである。 Score of the document A is as follows. すなわち、実際の出現密度の和が「0x09+0x13=0x1C」(0xは16進を表す)であり、文書サイズと合わせて「0x1CB8」である。 That is, the sum of the actual occurrence density "0x09 + 0x13 = 0x1C" (0x represents hexadecimal), together with the document size is "0x1CB8". 更新日の寄与を合わせて、「0x3CB8」となり、出現分布で1.75倍になり、「0x6A47=27207」がスコアとなる。 The combined contribution of the renewal date, "0x3CB8", and will be 1.75 times with the advent distribution, "0x6A47 = 27207" is the score.
【0087】 [0087]
文書Bのスコアはつぎのとおりである。 Score of the document B is as follows. 出現密度と文書サイズから同様に「0x1F40」となる。 Similarly, the "0x1F40" from the appearance density and document size. 「富士ゼロックス株式会社」からのオカレンスからは得られないので、デフォルト値の「0x1800」が用いられ、合わせて「0x3740」となり、出現分布により2倍され、「0x6E80=28288」がスコアとなる。 Since not obtained from occurrences from "Fuji Xerox Co., Ltd.", "0x1800" is used in the default values, together "0x3740", and is doubled by the occurrence distribution, "0x6E80 = 28288" is the score.
【0088】 [0088]
文書Cのスコアはつぎのとおりである。 Score of the document C is as follows. 実際の出現密度の和が「0x1D+0x00=0x1D」であり、文書サイズと合わせて「0x1D80」である。 Is the sum of the actual appearance density is "0x1D + 0x00 = 0x1D", together with the document size is "0x1D80". 更新日の寄与を合わせて「0x17E3」となる。 The combined contribution of the renewal date is "0x17E3". 出現分布により2倍され、「0x2FC6=12230」がスコアとなる。 Is two-fold by the appearance distribution, "0x2FC6 = 12230" is the score.
【0089】 [0089]
以上の結果、文書B、A、Cの順にソートされる。 As a result, the document B, A, is sorted in the order of C.
【0090】 [0090]
以上で実施例3の説明を終了する。 The end of the description of Example 3 above. この実施例によれば、スコア計算やソートを分散させて実行するため、応答性を高くでき、スケーラビリティもある。 According to this embodiment, to perform by dispersing score calculation and sorting, you can increase the responsiveness, also scalability. また、所定の上限値を超えるヒットレコードは検索管理サーバへ送らないので、通信コストが減少する。 Further, the hit record exceeds a predetermined upper limit value does not sent to search the management server, the communication cost is reduced.
【0091】 [0091]
なお、図13では、検索管理サーバと検索サーバとを別々に構成し、ネットワーク(LANやWAN)で接続したが、図3に示すように、検索管理サーバの機能と検索サーバの機能を一体化した場合にも、インデクスごとにスコアでソートを行い、これを連結し、その後、再度スコアでソートして検索結果とすることもできることはもちろんである。 In FIG. 13, the retrieval management server and search constitutes a server separately, but connected by a network (LAN or WAN), as shown in FIG. 3, integrated functions of the search server searches the management server in the case that, to sort by score for each index, concatenates it, then, of course it can also be the result searched sorted again score.
【0092】 [0092]
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。 Note that the present invention may be variously modified without departing from the spirit is not limited to the embodiments described above. 例えば、実施例2の検索装置を図4に示すイントラネット環境に適用できることはもちろんであり、その際記録媒体等を用いて同様のシステムをコンピュータシステムにインストールして構築することもできる。 For example, a course can be applied to retrieval device of Example 2 in an intranet environment shown in FIG. 4, it may be constructed by installing a similar system to the computer system using the time recording medium.
【0093】 [0093]
【発明の効果】 【Effect of the invention】
以上説明したように、この発明によれば、アクセス権限に配慮して統合検索のインデクスを構築することができ、また、ヒットレコードごとにアクセス権限を検証することを回避し、高速に検索を行うことができる。 As described above, according to the present invention, in consideration of the access rights can build an index of integrated search, also avoids verifying access rights to each hit record, perform search at high speed be able to. また複数のインデクスを用いた場合でも、ヒットレコードの併合回数を減らし、高速に検索を行える。 Even when using a plurality of indexes, it reduced the combined number of hits record, perform search at high speed.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】この発明の実施例1の検索装置を模式的に示すブロック図である。 1 is a block diagram schematically showing the retrieval device of the first embodiment of the present invention.
【図2】上述の実施例1のインデクス構築装置を模式的に示すブロック図である。 2 is a block diagram schematically showing the above-described index builder of Example 1.
【図3】上述の実施例1をイントラネット環境に適用した構成例を説明する図である。 3 is a diagram illustrating an example configuration according to the first embodiment described above in an intranet environment.
【図4】この発明の実施例2の検索装置を模式的に示すブロック図である。 4 is a block diagram schematically showing the retrieval device of Example 2 of the present invention.
【図5】上述実施例2のインデクス別ヒットレコード数生成部における各インデクスのヒットレコード算出処理を説明するための、B+ツリー構造の説明図である。 [Figure 5] for explaining a hit record calculation processing for each index in the index by the hit record number generator described above in Example 2 is an explanatory view of B + tree structure.
【図6】図5のB+ツリー構造の管理ノードを説明する図である。 6 is a diagram illustrating a management node B + tree structure of FIG.
【図7】図5のB+ツリー構造の中間ノードを説明する図である。 7 is a diagram illustrating an intermediate node of the B + tree structure of FIG.
【図8】図5のB+ツリー構造のリーフノードを説明する図である。 8 is a diagram illustrating the leaf nodes of the B + tree structure of FIG.
【図9】図5のB+ツリー構造の検索を説明する図である。 9 is a diagram for explaining the search of B + tree structure of FIG.
【図10】図5のB+ツリー構造に含まれる件数管理情報を説明する図である。 10 is a diagram illustrating a number management information included in the B + tree structure in FIG.
【図11】図5のB+ツリー構造を用いてインデクスのヒットレコードを算出する処理を説明するフローチャートである。 11 is a flowchart illustrating a process of calculating the hit records indexed using B + tree structure in FIG.
【図12】図11の順位算出ルーチンを説明するフローチャートである。 12 is a flowchart illustrating the order calculating routine of FIG. 11.
【図13】この発明の実施例3の構成を説明する図である。 13 is a diagram illustrating the configuration of a third embodiment of the present invention.
【図14】上述実施例3の動作を説明するフローチャートである。 14 is a flowchart for explaining the operation of the above third embodiment.
【図15】上述実施例3におけるレコードのフォーマットを説明する図である。 15 is a diagram illustrating a format of a record in the above Example 3.
【図16】上述実施例のスコア計算の例を説明する図である。 16 is a diagram illustrating an example of the score calculation in the above embodiment.
【符号の説明】 DESCRIPTION OF SYMBOLS
10 検索部11 アクセス制御部12 ユーザ権限記憶部13 インデクス記憶装置14 インデクス15 検索ユーザ端末20 プロセス起動部21 インデクスレコード管理部22 インデクスレコード管理プロセス23 アクセス制御部24 プロセス権限記憶部30 インデクス別ヒットレコード数生成部31 インデクス選択部32 ヒットレコード併合部33 ヒットレコード一時記憶部34 表示レコード出力部100 検索システム101 インデクス保持部102 インデクス構築システム103 文書ファイリングシステム104 ディレクトリサーバ105 ウェブサーバ106 アプリケーションサーバ107 ルータ108 LAN 10 search unit 11 accesses the control unit 12 the user authorization storage unit 13 the index storage unit 14 index 15 searches the user terminal 20 processes startup unit 21 index records management unit 22 index records management process 23 access control unit 24 process rights storage unit 30 indexes per hit record The number generator 31 index selector 32 hit record merging portion 33 hit record temporary storage unit 34 display record output unit 100 searches the system 101 index holding portion 102 index construction system 103 document filing system 104 the directory server 105 the web server 106 application server 107 router 108 LAN
109、110 記憶媒体120 クライアント端末121 ネットワーク200 セキュリティドメイン300 検索管理サーバ301 検索サーバ302 インデクス保持部 109,110 storage medium 120 the client terminal 121 network 200 security domain 300 searches the management server 301 the search server 302 index holder

Claims (20)

  1. 文書のアクセス権限ごとに設けられたインデクスを記憶するインデクス記憶手段と、 And index storage means for storing an index provided for each access documents,
    上記インデクスを用いて文書の検索を行う検索手段と、 Search means for searching for documents using the index,
    検索ユーザのアクセス権限に基づいて当該検索ユーザの検索要求に許容される上記インデクスを特定する手段とを有することを特徴とする検索装置。 Based on the access rights of the search user search apparatus characterized by comprising a means for identifying the index that is acceptable to the search request of the search user.
  2. 上記インデクス記憶手段は、1つの記憶システムから構成される請求項1記載の検索装置。 It said index storage means, retrieving apparatus according to claim 1, wherein comprised of one storage system.
  3. 上記インデクス記憶手段は、上記インデクスをアクセス権限に応じて分掌する複数の記憶システムから構成される請求項1記載の検索装置。 It said index storage means, retrieving apparatus according to claim 1, wherein including a plurality of storage systems for segregation in accordance with the index to access.
  4. 文書のアクセス権限ごとにインデクスを構築する、検索装置のインデクス構築装置において、 Building an index for each access documents, the index builder search device,
    上記アクセス権限ごとに、文書を参照してインデクスを構築・管理するプロセスをアクセス権限を設定して起動する手段と、 For each of the access authority, and means for activating by setting the access permission process of building and managing an index with reference to the document,
    上記プロセスにより、対応するアクセス権限の文書を参照してインデクスレコードを生成する手段と、 By the above process, it means for generating an index record in the documentation of the corresponding access rights,
    上記インデクスレコードを対応するインデクスに含ませる手段とを有することを特徴とする、検索装置のインデクス構築装置。 And having a means for including the index corresponding to the index record, index builder search unit.
  5. ヒットレコードのうち所望数を越える分をのぞき取りだして所定の規則に従ってソートし、良い順位のレコードを、上記所望数を下回る所定の表示数を上限として表示する検索装置において、 Is taken out except for the amount exceeding the desired number of hits records sorted according to a predetermined rule, a good ranking records, the search device displays a maximum of a predetermined number of displayed below the desired number,
    複数のインデクスを記憶する手段と、 It means for storing a plurality of indexes,
    上記インデクスの各々におけるヒットレコードの件数を生成する件数算出手段と、 A number calculating means for generating a number of hit records in each of the index,
    単一のインデクスのヒットレコードの件数のみでは、上記所望数に達しない場合に、上記単一のインデクスのヒットレコードに他の1または複数のインデクスのヒットレコードを併合するヒットレコード併合手段と、 Single alone the number of hits record index, if not reached the desired number, and the hit record merging means for merging the hit records of the single one or a plurality of other index hit record index,
    上記インデクスの各々におけるヒットレコードの件数および上記所望数に基づいて、上記併合に用いるインデクスの数が最小になるように、上記併合に用いるインデクスを選択するインデクス選択手段と、 Based on the number and the desired number of hits records in each of the indexes, so that the number of indexes used in the merge is minimized, and an index selecting means for selecting an index used for the consolidation,
    単一のインデクスから取り出された上記所望数以上のヒットレコードまたは上記レコード併合手段により併合されたヒットレコードを所定の規則に従ってソートするソート手段と、 And sorting means for sorting the merged hit record by the desired number or more hits record or the record merging means taken from a single index according to a predetermined rule,
    ソートしたレコードのうち、良い順位のヒットレコードを上記表示数を上限として取り出すヒットレコード取り出し手段と、 Of the sorted records, and means taken out hit records to retrieve a good ranking hit record as the upper limit number of the display,
    取りだした上記表示数のレコードを表示データとして出力するヒットレコード出力手段とを有することを特徴とする検索装置。 Search apparatus characterized by having a hit record output means for outputting the display number of records taken out as display data.
  6. 上記所定の規則は、ヒットレコードに付与されたランキングスコアの大小に基づいて順位を決定する請求項5記載の検索装置。 The predetermined rule, the search device according to claim 5, wherein determining the order based on the magnitude of the applied ranking scores a hit record.
  7. 複数の検索装置本体と、上記複数の検索装置本体と通信ネットワークを介して接続された検索管理装置とを具備し、 Comprising a plurality of retrieval device body, and a connection search management device via the communication network with the plurality of search apparatus main body,
    上記検索装置本体の各々は、対応するインデクスを用いて検索を行い、ヒットレコードに対してスコア計算を行い、スコアに基づいてヒットレコードをソートし、 Each of the search apparatus main body performs a search using the corresponding index performs score calculation with respect to the hit records, to sort the hit records based on the score,
    上記検索管理装置は、上記件数算出手段と、上記ヒットレコード併合手段と、上記インデクス選択手段と、上記ソート手段と、上記ヒットレコード取り出し手段と、上記ヒットレコード出力手段とを具備し、上記インデクス選択手段により選択されたインデクスに対応する検索装置本体から、スコアを含むヒットレコードを受け取る請求項5記載の検索装置。 The search management apparatus includes the above-described count calculation means, and the hit record merging means, and the index selecting means, and said sorting means includes means taking out the hit record, and the hit record output means, said index selection from the search apparatus main body corresponding to the index selected by the means, the search apparatus according to claim 5, wherein receiving the hit record with scores.
  8. 文書のアクセス権限ごとに設けられたインデクスを用いて検索を行う検索方法において、 In search method of performing search using the index provided for each access documents,
    検索ユーザのアクセス権限に基づいて当該検索ユーザの検索要求に許容される上記インデクスを特定するステップと、 Identifying the index that is acceptable to the search request for the search user based on the access rights of the search user,
    許容される上記インデクスを用いて文書の検索を行うステップとを有することを特徴とする検索方法。 Search method characterized by a step of performing acceptable to search for documents using the index.
  9. 文書のアクセス権限ごとにインデクスを構築する、検索装置のインデクス構築方法において、 Building an index for each access document, the index construction process of the search device,
    上記アクセス権限ごとに、 For each of the access authority,
    文書を参照してインデクスを構築・管理するプロセスをアクセス権限を設定して起動するステップと、 And a step to start to set the access permissions process of building and managing an index with reference to the document,
    上記プロセスにより、対応するアクセス権限の文書を参照してインデクスレコードを生成するステップと、 By the above process, the steps of: generating an index record in the documentation of the corresponding access rights,
    上記インデクスレコードを対応するインデクスに含ませるステップとを実行することを特徴とする、検索装置のインデクス構築方法。 And executes the steps to be included in the index corresponding to the index record, index construction method of the search device.
  10. 複数のインデックスを用い、かつ、上記インデクスのヒットレコードのうち所望数を越える分をのぞき取りだして所定の規則に従ってソートし、良い順位のレコードを、上記所望数を下回る所定の表示数を上限として表示する検索方法において、 Display using a plurality of indexes, and is taken out except for amount that exceeds the desired number of hits record of the index sorted according to a predetermined rule, a good ranking record, the predetermined number of display below the desired number as an upper limit in the search method that,
    上記インデクスの各々におけるヒットレコードの件数を生成するステップと、 Generating a number of hit records in each of the index,
    単一のインデクスのヒットレコードの件数のみでは、上記所望数に達しない場合に、上記単一のインデクスのヒットレコードに他の1または複数のインデクスのヒットレコードを併合するヒットレコード併合ステップと、 Single alone the number of hits record index, if not reached the desired number, and the hit record merging step of merging hit records of the single one or a plurality of other index hit record index,
    上記インデクスの各々におけるヒットレコードの件数および上記所望数に基づいて、上記併合に用いるインデクスの数が最小になるように、上記併合に用いるインデクスを選択するステップと、 Based on the number and the desired number of hits records in each of the indexes, so that the number of indexes used in the merge is minimized, and selecting an index used for the consolidation,
    単一のインデクスから取り出された上記所望数以上のヒットレコードまたは上記レコード併合ステップにより併合されたヒットレコードを所定の規則に従ってソートするステップと、 A step of sorting the hit records merged by the desired number or more hits record or the record merging steps taken from a single index according to a predetermined rule,
    ソートしたレコードのうち、良い順位のヒットレコードを上記表示数を上限として取り出すステップと、 Of the sorted records, retrieving a good ranking hit record as the upper limit number of the display,
    取りだした上記表示数のレコードを表示データとして出力するステップとを有することを特徴とする検索方法。 Search method characterized by a step of outputting the display number of records removed as display data.
  11. 文書のアクセス権限ごとに設けられたインデクスを用いて検索を行う検索用コンピュータプログラムにおいて、 In the search for a computer program to perform a search using the index provided for each access documents,
    検索ユーザのアクセス権限に基づいて当該検索ユーザの検索要求に許容される上記インデクスを特定するステップと、 Identifying the index that is acceptable to the search request for the search user based on the access rights of the search user,
    許容される上記インデクスを用いて文書の検索を行うステップとをコンピュータに実行させるために用いられることを特徴とする検索用コンピュータプログラム。 Search computer program, characterized by being used to execute a step of performing a search for documents using acceptable the index to the computer.
  12. 文書のアクセス権限ごとにインデクスを構築する、検索装置のインデクス構築用コンピュータプログラムにおいて、 Building an index for each access document, the computer program index building search device,
    上記アクセス権限ごとに、 For each of the access authority,
    文書を参照してインデクスを構築・管理するプロセスをアクセス権限を設定して起動するステップと、 And a step to start to set the access permissions process of building and managing an index with reference to the document,
    上記プロセスにより、対応するアクセス権限の文書を参照してインデクスレコードを生成するステップと、 By the above process, the steps of: generating an index record in the documentation of the corresponding access rights,
    上記インデクスレコードを対応するインデクスに含ませるステップとをコンピュータに実行させるために用いられることを特徴とする、検索装置のインデクス構築用コンピュータプログラム。 Above, wherein the used an index record in order to execute the steps included in the corresponding index to the computer, search device index building computer programs.
  13. 複数のインデックスを用い、かつ、ヒットレコードのうち所望数を越える分をのぞき取りだして所定の規則に従ってソートし、良い順位のレコードを、上記所望数を下回る所定の表示数を上限として表示する検索用コンピュータプログラムにおいて、 Using a plurality of indexes, and a search is taken out except for the amount exceeding the desired number of hits records sorted according to a predetermined rule, a good order of the records, and displays a maximum of a predetermined number of displayed below the desired number in the computer program,
    上記インデクスの各々におけるヒットレコードの件数を生成するステップと、 Generating a number of hit records in each of the index,
    単一のインデクスのヒットレコードの件数のみでは、上記所望数に達しない場合に、上記単一のインデクスのヒットレコードに他の1または複数のインデクスのヒットレコードを併合するヒットレコード併合ステップと、 Single alone the number of hits record index, if not reached the desired number, and the hit record merging step of merging hit records of the single one or a plurality of other index hit record index,
    上記インデクスの各々におけるヒットレコードの件数および上記所望数に基づいて、上記併合に用いるインデクスの数が最小になるように、上記併合に用いるインデクスを選択するステップと、 Based on the number and the desired number of hits records in each of the indexes, so that the number of indexes used in the merge is minimized, and selecting an index used for the consolidation,
    単一のインデクスから取り出された上記所望数以上のヒットレコードまたは上記レコード併合ステップにより併合されたヒットレコードを所定の規則に従ってソートするステップと、 A step of sorting the hit records merged by the desired number or more hits record or the record merging steps taken from a single index according to a predetermined rule,
    ソートしたレコードのうち、良い順位のヒットレコードを上記表示数を上限として取り出すステップと、 Of the sorted records, retrieving a good ranking hit record as the upper limit number of the display,
    取りだした上記表示数のレコードを表示データとして出力するステップとをコンピュータに実行させるために用いられることを特徴とする検索用コンピュータプログラム。 Search computer program, characterized in that it is used to perform the steps on a computer for outputting the display number of records removed as display data.
  14. 複数のインデクスを用いて検索を行う検索装置において、各インデクスから取得した、スコアを含むヒットレコードをスコアに基づいて各インデクスごとにソートし、ソートした上記スコアを含むヒットレコードを所定の規則で連結し、連結した上記スコアを含むヒットレコードをスコアに基づいて再度ソートし、再度ソートした後のヒットレコードの上位の所定数を検索結果として出力することを特徴とする検索装置。 In search device for searching using a plurality of indices were obtained from the index, and sorts the hit record with scores for each index based on the scores, connecting a hit record containing the sorted the scores with a predetermined rule retrieval apparatus and sorts the hit records containing the score linked again based on the score, and outputs as a search result a predetermined number of higher hit record after sorting again.
  15. ヒットレコードの数が多いインデクスから順に、ヒットレコードを連結していき所定数に達っしたら連結を終了させる請求項14記載の検索装置。 In order from the large number index hit record retrieval apparatus according to claim 14 wherein to terminate the connection reaches the predetermined number will connect the hit record.
  16. 複数のインデクスを用いて検索を行う検索装置において、 In search device for searching using a plurality of indexes,
    インデクスごとに設けられてレコードの検索を行い、ヒットレコードに対して所定の規則でスコア計算を行い、レコードにスコアを付与し、上記スコアに基づいてヒットレコードをソートする第1の手段と、 Is provided for each index to search for records, first means performs score calculation at a predetermined rule with respect to the hit record, impart score records, sort the hit records based on the scores,
    上記第1の手段から、対応するインデクスに対して生成された、ソート済みのヒットレコードのセットを受取り、複数のセットのソート済みのヒットレコードを受け取ったときは、上記複数のセットのソート済みのヒットレコードを連結したのち再度ソートを行い、再度ソートした後のヒットレコードの上位の所定数を検索結果として出力する第2の手段とを有することを特徴とする検索装置。 From the first means is generated for the corresponding indexes, receive a set of sorted hit record, upon receipt of a sorted hit records a plurality of sets, of the plurality of sets sorted to sort again later coupled hit records, search apparatus characterized by a second means for outputting the search result a predetermined number of higher hit record after sorting again.
  17. 上記第1の手段と上記第2の手段とは通信ネットワークを介して接続される請求項16記載の検索装置。 Above the first means and said second means searching apparatus according to claim 16 connected via a communications network.
  18. スコアの計算は、レコードが指示する文書の更新時刻、当該文書中のキーワードの出現密度、および当該文書中の同一文書中に、同時指定されたキーワードが同時に出現する度合いの少なくとも1つに基づいて行われる請求項16または17記載の検索装置。 Calculation of score, update time of the document record to indicate the occurrence density of keywords in the document, and in the same document of the in the document, keywords that are specified simultaneously is based on at least one of the degree of occurrence at the same time Search device according to claim 16 or 17 wherein is carried out.
  19. 複数のインデクスを用いて検索を行う検索方法において、各インデクスから取得した、スコアを含むヒットレコードをスコアに基づいて各インデクスごとにソートし、ソートした上記スコアを含むヒットレコードを所定の規則で連結し、連結した上記スコアを含むヒットレコードをスコアに基づいて再度ソートし、再度ソートした後のヒットレコードの上位の所定数を検索結果として出力することを特徴とする検索方法。 In search method for searching using multiple indices were obtained from the index, and sorts the hit record with scores for each index based on the scores, connecting a hit record containing the sorted the scores with a predetermined rule search method and sorts the hit records containing the score linked again based on the score, and outputs as a search result a predetermined number of higher hit record after sorting again.
  20. 複数のインデクスを用いて検索を行う検索用コンピュータプログラムにおいて、 In the search for a computer program to perform a search using a plurality of indexes,
    各インデクスから取得した、スコアを含むヒットレコードを所定の規則で連結するステップと、 Obtained from the index, the steps of connecting a hit record with scores to a predetermined rule,
    連結した上記スコアを含むヒットレコードをスコアに基づいてソートするステップと、 A step of sorting based on the hit record containing the ligated the score to the score,
    ソートした後のヒットレコードの上位の所定数を検索結果として出力することを特徴とする検索用コンピュータプログラム。 Search computer program and outputting a predetermined number of higher hit record after sorting as a search result.
JP2003075724A 2002-09-17 2003-03-19 Apparatus and method for retrieval, and apparatus and method for index building Pending JP2004164555A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002269346 2002-09-17
JP2003075724A JP2004164555A (en) 2002-09-17 2003-03-19 Apparatus and method for retrieval, and apparatus and method for index building

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003075724A JP2004164555A (en) 2002-09-17 2003-03-19 Apparatus and method for retrieval, and apparatus and method for index building

Publications (1)

Publication Number Publication Date
JP2004164555A true true JP2004164555A (en) 2004-06-10

Family

ID=32827563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003075724A Pending JP2004164555A (en) 2002-09-17 2003-03-19 Apparatus and method for retrieval, and apparatus and method for index building

Country Status (1)

Country Link
JP (1) JP2004164555A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085563A (en) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd Information processing apparatus, information processing method and computer program
WO2010041516A1 (en) 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション Information processing apparatus, document retrieval system, document retrieval method, and program
JP2010102518A (en) * 2008-10-23 2010-05-06 Hitachi Software Eng Co Ltd Search system
US8001149B2 (en) 2007-09-28 2011-08-16 Fuji Xerox Co., Ltd. Document managing system, document use controller, document storage device, document managing method, and computer readable medium for updating index information at a storage device in response to change of index use permit/inhibit information at a document use controller
JP2012069152A (en) * 2004-09-27 2012-04-05 Microsoft Corp Method and recording medium for narrowing down searches using index keys
CN103620616A (en) * 2013-03-28 2014-03-05 华为技术有限公司 Access control right management method and device
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
JP2017152007A (en) * 2014-08-21 2017-08-31 ドロップボックス, インコーポレイテッド Multi-user search system with methodology for personal searching

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085563A (en) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd Information processing apparatus, information processing method and computer program
JP2012069152A (en) * 2004-09-27 2012-04-05 Microsoft Corp Method and recording medium for narrowing down searches using index keys
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US8001149B2 (en) 2007-09-28 2011-08-16 Fuji Xerox Co., Ltd. Document managing system, document use controller, document storage device, document managing method, and computer readable medium for updating index information at a storage device in response to change of index use permit/inhibit information at a document use controller
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
WO2010041516A1 (en) 2008-10-08 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション Information processing apparatus, document retrieval system, document retrieval method, and program
JP2010102518A (en) * 2008-10-23 2010-05-06 Hitachi Software Eng Co Ltd Search system
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN103620616A (en) * 2013-03-28 2014-03-05 华为技术有限公司 Access control right management method and device
WO2014153759A1 (en) * 2013-03-28 2014-10-02 华为技术有限公司 Method and device for managing access control permission
JP2017152007A (en) * 2014-08-21 2017-08-31 ドロップボックス, インコーポレイテッド Multi-user search system with methodology for personal searching

Similar Documents

Publication Publication Date Title
US6581065B1 (en) Dynamic insertion and updating of hypertext links for internet servers
US6701310B1 (en) Information search device and information search method using topic-centric query routing
US7085755B2 (en) Electronic document repository management and access system
US6983320B1 (en) System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
US6928452B2 (en) Tiered and content based database searching
US6289337B1 (en) Method and system for accessing information using keyword clustering and meta-information
US7290061B2 (en) System and method for internet content collaboration
US7069300B2 (en) Community-based collaborative knowledge system, and message moving method in that system
US6505191B1 (en) Distributed computer database system and method employing hypertext linkage analysis
US5978828A (en) URL bookmark update notification of page content or location changes
US6643648B1 (en) Secure, limited-access database system and method
US6826566B2 (en) Identifier vocabulary data access method and system
US20030088639A1 (en) Method and an apparatus for transforming content from one markup to another markup language non-intrusively using a server load balancer and a reverse proxy transcoding engine
Ley The DBLP computer science bibliography: Evolution, research issues, perspectives
US6493702B1 (en) System and method for searching and recommending documents in a collection using share bookmarks
US7343412B1 (en) Method for maintaining and managing dynamic web pages stored in a system cache and referenced objects cached in other data stores
US20010018698A1 (en) Forum/message board
US6336112B2 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
US6370553B1 (en) Atomic and molecular documents
US20100223261A1 (en) System for Communication and Collaboration
US6636853B1 (en) Method and apparatus for representing and navigating search results
US7698255B2 (en) System for organizing knowledge data and communication with users having affinity to knowledge data
US20070156761A1 (en) Method and apparatus for facilitating use of hypertext links on the World Wide Web
US7539763B2 (en) Community-based collaborative knowledge system, and message subscription type setting method and reply message processing method in that system
US20050108219A1 (en) Tiered and content based database searching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090421

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090519