JP2010224601A - 情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム - Google Patents

情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム Download PDF

Info

Publication number
JP2010224601A
JP2010224601A JP2009067972A JP2009067972A JP2010224601A JP 2010224601 A JP2010224601 A JP 2010224601A JP 2009067972 A JP2009067972 A JP 2009067972A JP 2009067972 A JP2009067972 A JP 2009067972A JP 2010224601 A JP2010224601 A JP 2010224601A
Authority
JP
Japan
Prior art keywords
information
index
update
search
specific item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009067972A
Other languages
English (en)
Inventor
Yukiko Igarashi
祐希子 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009067972A priority Critical patent/JP2010224601A/ja
Publication of JP2010224601A publication Critical patent/JP2010224601A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報の更新時に再インデックス化に要する時間を短縮できる情報検索システム、再インデックス化処理方法およびプログラムを得ること。
【解決手段】特定項目抽出手段15は、特定項目更新有無判別手段14で検索の対象となる情報の属性における特定項目のみの更新が行われたと判別したときその特定項目についてインデックス情報抽出手段11を用いてインデックスを抽出する。検索インデックス更新手段16は、抽出した特定項目についてのインデックス情報のみを検索インデックスにおける記憶領域の配置関係を固定した状態で更新する。
【選択図】図1

Description

本発明は、情報の検索を行う情報検索システム、再インデックス化処理方法および再インデックス化処理プログラムに係わり、特に情報の更新時に好適な情報検索システム、再インデックス化処理方法および再インデックス化処理プログラムに関する。
複数の文書の中から特定の文字列としてのキーワードを含む文書を検索する全文検索は、たとえばウェブブラウザを用いた検索によって多くの人に身近な存在となっている。文書検索を行う情報検索システムでは、検索対象となる文書を逐次検索する方式を採用した場合、文書の数の増加と共に検索に要する時間が長時間化することになる。そこで、インデックス型の情報検索システムが本発明の関連技術として注目されている(たとえば特許文献1参照)。
図17は、このようなインデックス型の情報検索システムの概要を表わしたものである。情報検索システム100のリソースサーバ101には、ユーザ102が検索の対象とする文書群が収容されている。リソースサーバ101は、たとえばファイルサーバ、RDB(relational database)サーバ、ウェブサーバ、文書管理サーバのようなものである。
インデクサ103は、リソースサーバ101に収容されている個々の文書104から検索対象となる文書の本文の内容や属性あるいは文書104に対するアクセス権等の情報を収集する。そして、これらを検索インデックス105としてインデックス情報記憶部106に収容しておく。ユーザ102は、パーソナルコンピュータや携帯電話機等のユーザ端末107を使用して検索インデックス処理装置108に対してキーワードとなる文字列を入力して、対応する文書の検索を要求する。検索インデックス処理装置108はこの要求があると、インデックス情報記憶部106に対応する文書を問い合わせ、その応答結果を基にして検索結果をユーザ端末107に提示することになる。
このような情報検索システム100では、検索対象となる文書104と検索インデックス105の内容の間に不整合が生じると、正確な検索が行われない。たとえば、ある文書104の内容が訂正されて、文書の本体に記載されていたAという事項の記載がなくなったとする。それにもかかわらず、その文書104に対応する検索インデックス105にはAという事項の記載が存在することが示されていたとすれば、間違った検索結果が得られることになるからである。
そこで、リソースサーバ101に収容されている文書104の内容が変更になったときには、対応する検索インデックス105も更新する必要がある。本発明の前記した関連技術でも、更新された文書の日付情報等のそれぞれの情報を検索インデックス105の対応箇所に順に格納して再インデックス化する一般的な更新処理が開示されている。
特開昭58−169632号公報(第2ページ右上欄第10行目〜同ページ右下欄第19行目、第1図)
このように本発明の関連技術では、検索対象の文書104についてその本体や属性情報が変更された場合、それに合わせて検索インデックスを変更する再インデックス化処理を行っている。この再インデックス化処理は、更新が行われた本文や属性情報をすべて再インデックス化するようにしている。したがって、リソースサーバ101等の所定の媒体に格納されている検索対象の文書104が多く、更新される文書104の数が多くなるほど、再インデックス化に要する時間が長時間化するという問題がある。
そこで本発明の目的は、情報の更新の内容に応じて再インデックス化の対象を限定して、再インデックス化に要する時間を短縮するようにした情報検索システム、再インデックス化処理方法および再インデックス化処理プログラムを提供することにある。
本発明では、(イ)検索の対象となる情報そのものの内容およびその情報の属性情報を対象に前記した情報の検索語をインデックス情報として抽出するインデックス情報抽出手段と、(ロ)このインデックス情報抽出手段によって抽出した個々のインデックス情報をそれぞれ1単位ずつの記憶領域に割り当てる形で前記した情報そのものの内容や前記した属性情報の項目に分けた形で全項目を1つに束ねた情報ごとの検索インデックスを作成する検索インデックス作成手段と、(ハ)この検索インデックス作成手段によって作成した検索インデックスを検索の対象となる情報単位で記憶する検索インデックス群記憶手段と、(ニ)この検索インデックス群記憶手段に検索インデックスとして記憶した検索の対象となる情報あるいはその属性情報の更新が行われるとき、更新によっては前記した記憶領域の総数が変動しない項目のうちで予め定めた項目としての特定項目のみについて更新が行われたか否かを判別する特定項目更新有無判別手段と、(ホ)この特定項目更新有無判別手段で前記した特定項目のみの更新が行われたと判別したとき前記した特定項目について前記したインデックス情報抽出手段を用いてインデックスの抽出を行う特定項目抽出手段と、(へ)この特定項目抽出手段によって抽出した前記した特定項目についてのインデックス情報を前記した検索インデックスにおける前記した記憶領域の総数および配置関係を固定した状態で更新する検索インデックス更新手段とを情報検索システムが具備する。
また、本発明では、(イ)検索の対象となる情報の更新が行われたとき、更新後の情報の内容あるいはその情報の属性情報からなる更新情報を受信する更新情報受信ステップと、(ロ)この更新情報受信ステップで前記した更新情報を受信したとき、前記した情報の更新が既にその情報について作成された情報検索用の検索インデックスにおける情報の属性情報についての記憶領域の変更を伴わないとされる予め定めた特定項目のみについての更新であるかを判別する特定項目更新有無判別ステップと、(ハ)この特定項目更新有無判別ステップで前記した特定項目のみについての更新であると判別したとき、その特定項目についてのみ情報の検索語をインデックス情報として抽出するインデックス情報抽出ステップと、(ニ)このインデックス情報抽出ステップで抽出したインデックス情報を、前記した検索インデックスにおける記憶領域を他の項目との関係で固定した状態で更新する検索インデックス更新ステップとを再インデックス化処理方法が具備する。
更に本発明では、コンピュータに、再インデックス化処理プログラムとして、(イ)検索の対象となる情報の更新が行われたとき、更新後の情報の内容あるいはその情報の属性情報からなる更新情報を受信する更新情報受信処理と、(ロ)この更新情報受信処理で前記した更新情報を受信したとき、前記した情報の更新が既にその情報について作成された情報検索用の検索インデックスにおける情報の属性情報についての記憶領域の変更を伴わないとされる予め定めた特定項目のみについての更新であるかを判別する特定項目更新有無判別処理と、(ハ)この特定項目更新有無判別処理で前記した特定項目のみについての更新であると判別したとき、その特定項目についてのみ情報の検索語をインデックス情報として抽出するインデックス情報抽出処理と、(ニ)このインデックス情報抽出処理で抽出したインデックス情報を、前記した検索インデックスにおける記憶領域を他の項目との関係で固定した状態で更新する検索インデックス更新処理とを実行させることを特徴としている。
以上説明したように本発明によれば、検索の対象となる情報あるいはその属性情報の更新時に特定項目以外の項目について変更がない場合に検索インデックス全体の再インデックス化を行う必要がない。したがって、検索インデックスの更新処理に要する時間を短縮することができるだけでなく、更新内容が迅速に反映されるので、検索の信頼性の向上を図ることができる。
本発明の情報検索システムのクレーム対応図である。 本発明の再インデックス化処理方法のクレーム対応図である。 本発明の再インデックス化処理プログラムのクレーム対応図である。 本発明の実施の形態による情報検索システムのシステム構成図である。 本実施の形態でインデックス情報記憶部が格納する検索インデックスの格納項目を示した説明図である。 本実施の形態で文書データ記憶部に記憶された文書情報の一例を示した説明図である。 本実施の形態で説明する会社組織のコード情報、フラグおよびアクセス権の識別子の関係を一覧として示した説明図である。 本実施の形態の全アクセス権情報を数値パターンとして体系化して示した説明図である。 図6に示した文書情報に対応するインデックス情報欄とアクセス権パターン化リストの組を示した説明図である。 本実施の形態の文書データ処理装置によるインデックス情報の変更の様子を表わした流れ図である。 本実施の形態で更新情報を受信した検索インデックス処理装置の処理を表わした流れ図である。 図6に示した文書情報で更新者の氏名が変更になった場合の変更後の文書情報の内容を表わした説明図である。 図12に示した文書情報に対応するインデックス情報欄とアクセス権パターン化リストの組を示した説明図である。 本実施の形態でアクセス権情報だけが変更された場合の文書情報の一例を示した説明図である。 図14に示したアクセス権情報の変更に対応するインデックス情報欄ならびにアクセス権情報の組を表わした説明図である。 本発明の変形例における更新情報を受信した検索インデックス処理装置の処理を表わした流れ図である。 本発明の関連技術としてのインデックス型の情報検索システムを示すシステム構成図である。
図1は、本発明の情報検索システムのクレーム対応図を示したものである。本発明の情報検索システム10は、インデックス情報抽出手段11と、検索インデックス作成手段12と、検索インデックス群記憶手段13と、特定項目更新有無判別手段14と、特定項目抽出手段15と、検索インデックス更新手段16を備えている。ここで、インデックス情報抽出手段11は検索の対象となる情報そのものの内容およびその情報の属性情報を対象に前記した情報の検索語をインデックス情報として抽出する。検索インデックス作成手段12は、インデックス情報抽出手段11によって抽出した個々のインデックス情報をそれぞれ1単位ずつの記憶領域に割り当てる形で情報そのものの内容や属性情報の項目に分けた形で全項目を1つに束ねた情報ごとの検索インデックスを作成する。検索インデックス群記憶手段13は、検索インデックス作成手段12によって作成した検索インデックスを検索の対象となる情報単位で記憶する。特定項目更新有無判別手段14は、更新によっては記憶領域の総数が変動しない項目のうちで予め定めた項目としての特定項目のみについて更新が行われたか否かを判別する。この判別は、検索インデックス群記憶手段13に検索インデックスとして記憶した検索の対象となる情報あるいはその属性情報の更新が行われるとき行われる。特定項目抽出手段15は、特定項目更新有無判別手段14で前記した特定項目のみの更新が行われたと判別したとき前記した特定項目についてインデックス情報抽出手段11を用いてインデックスの抽出を行う。検索インデックス更新手段16は、特定項目抽出手段15によって抽出した前記した特定項目についてのインデックス情報を前記した検索インデックスにおける前記した記憶領域の総数および配置関係を固定した状態で更新する。
図2は、本発明の再インデックス化処理方法のクレーム対応図を示したものである。本発明の再インデックス化処理方法20は、更新情報受信ステップ21と、特定項目更新有無判別ステップ22と、インデックス情報抽出ステップ23と、検索インデックス更新ステップ24とを備えている。ここで、更新情報受信ステップでは、検索の対象となる情報の更新が行われたとき、更新後の情報の内容あるいはその情報の属性情報からなる更新情報を受信する。特定項目更新有無判別ステップ22では、情報の更新が既にその情報について作成された情報検索用の検索インデックスにおける情報の属性情報についての記憶領域の変更を伴わないとされる予め定めた特定項目のみについての更新であるかを判別する。この判別は、更新情報受信ステップ21で更新情報を受信したとき行われる。インデックス情報抽出ステップ23では、特定項目更新有無判別ステップ22で前記した特定項目のみについての更新であると判別したとき、その特定項目についてのみ情報の検索語をインデックス情報として抽出する。検索インデックス更新ステップ24では、インデックス情報抽出ステップ23で抽出したインデックス情報を、前記した検索インデックスにおける記憶領域を他の項目との関係で固定した状態で更新する。
図3は、本発明の再インデックス化処理プログラムのクレーム対応図を示したものである。本発明の再インデックス化処理プログラム30は、コンピュータに、更新情報受信処理31と、特定項目更新有無判別処理32と、インデックス情報抽出処理33と、検索インデックス更新処理34とを実行させるようにしている。ここで、更新情報受信処理31では、検索の対象となる情報の更新が行われたとき、更新後の情報の内容あるいはその情報の属性情報からなる更新情報を受信する。特定項目更新有無判別処理32では、情報の更新が既にその情報について作成された情報検索用の検索インデックスにおける情報の属性情報についての記憶領域の変更を伴わないとされる予め定めた特定項目のみについての更新であるかを判別する。この判別は、更新情報受信処理31で前記した更新情報を受信したとき行われる。インデックス情報抽出処理33では、特定項目更新有無判別処理32で特定項目のみについての更新であると判別したとき、その特定項目についてのみ情報の検索語をインデックス情報として抽出する。検索インデックス更新処理34では、インデックス情報抽出処理33で抽出したインデックス情報を、前記した検索インデックスにおける記憶領域を他の項目との関係で固定した状態で更新する。
<発明の実施の形態>
次に本発明の実施の形態を説明する。
図4は、本発明の実施の形態による情報検索システムを表わしたものである。本実施の形態の情報検索システム200は、会社等の組織の下で管理される文書データの検索を行うようになっている。このため、情報検索システム200は、検索インデックス処理装置201と、文書データ処理装置202と、インデックス情報記憶部203および文書データの管理を中心としたリソースサーバ204を備えている。
ここで検索インデックス処理装置201は、検索用端末205を用いて検索ユーザ206が所望の情報を検索する際に使用する。検索インデックス処理装置201内には、管理の対象となる文書情報を収集する文書情報収集部211と、収集した文書情報を基にしてインデックスを作成するインデックス作成部212と、インデックス情報を更新するインデックス情報更新部213が配置されている。
リソースサーバ204は、先に説明したように一般にはファイルサーバ、RDBサーバ、ウェブサーバ、文書管理サーバのような各種のリソースを格納する手段として構成される。ただし、本実施の形態の情報検索システム200については、会社等の組織の下で管理される文書データを扱うものを例として説明する。このため、本実施の形態のリソースサーバ204は、文書データを記憶する文書データ記憶部221と、組織の構造を記憶する組織情報記憶部222を配置した構成となっている。ここで組織情報記憶部222は、組織のツリー構造とそれぞれの組織に所属する人の情報を記憶している。この中には、文書データのアクセス権に関する情報も含まれている。
文書データ処理装置202は、文書処理用端末207を文書処理ユーザ208が操作することで、文書データの各種処理が行われるようになっている。ただし、文書処理ユーザ208が文書データ処理装置202を直接操作する形態となっていてもよい。この場合、文書データ処理装置202が文書処理ユーザ208ごとに存在することになり、文書処理用端末207自体は不要となる。
文書データ処理装置202には、文書データ処理部231と、文書情報通信部232が配置されている。ここで、文書データ処理部231は、文書データの登録や更新、あるいは削除の処理を行う。文書データ処理部231は、また、フォルダ等の文書データの格納を行うとき格納先についてアクセス権のチェックも実施する。更に、文書データ処理部231は、フォルダや文書自体のアクセス権を追加したり変更することができるようになっている。文書情報通信部232は、文書データ処理部231がリソースサーバ204内の文書データ記憶部221に何らかの操作を実行した場合、その操作内容をインデックス情報に反映させるため、必要な情報を文書情報収集部211に送信する。
インデックス情報記憶部203は、文書データ記憶部221に格納されている文書の本文の内容や組織情報記憶部222に格納されているアクセス権に関する情報に代表される属性情報を基に作成された検索インデックス241を格納する。インデックス情報記憶部203に格納された検索インデックス241は、検索インデックス処理装置201のインデックス情報更新部213でインデックスが更新されたときには、その内容を更新するようになっている。
以上のような情報検索システム200の構成で、検索インデックス処理装置201、文書データ処理装置202、インデックス情報記憶部203およびリソースサーバ204は、それぞれ図示しないがCPU(Central Processing Unit)を備えている。そして、同じく図示しない記憶媒体に格納された制御プログラムを各CPUが実行することで、それぞれに割り当てられたデータ処理を行うようになっている。したがって、これらの装置は、パーソナルコンピュータあるいはこれと同様の回路構成で実現可能である。検索用端末205および文書処理用端末207についても、同様である。
図5は、インデックス情報記憶部が格納する検索インデックスの格納項目を示したものである。検索インデックス241は、文書本文とその属性情報によって構成されている。文書本文については、文書の情報を2−gram方式でインデックス情報として記載している。属性情報は、本実施の形態の場合、次の各項目が記載されている。
(a)文書のタイトル
(b)文書の作成者
(c)文書の更新者
(d)文書の作成日
(e)文書の更新が行われた場合の更新日
(f)文書の概要
(g)文書の作成されているファイルの種類(形式)
(h)文書に対する参照権
参照権は、その文書を単に読み出して参照するだけの権利である。
(i)更新権
更新権は、その文書の内容を変更して置き換える権利である。
(j)持出権
持出権は、その文書を単に読み出して参照するだけでなく、その内容を印刷したり、ダウンロードする権利である。
図6は、文書データ記憶部に記憶された文書情報の一例を示している。図4と共に説明する。
図6に示した文書情報は、「大項目」、「小項目」、「属性ID(identifier)」と「内容」に区分けされている。ここでは、リソースサーバ204の文書データ記憶部221に記憶されている文書における文書IDとしての属性IDが「1」の本文を例として示している。この文書の「本文」は、属性ID「2」で示される「全館停電となりますのでご注意ください」というテキスト文である。「属性情報」については、「作成日」、「ファイル種類」、「更新者」、「作成者」および「タイトル」が規定されており、それぞれが属性ID「3」〜「7」に対応している。
「アクセス権情報」については、属性IDの「8」が割り当てられている。ここには、「0x110000.02.01」以下の3つのアクセス権情報が記されている。この例で、一番目のアクセス権情報「0x110000.02.01」における最初の「0x110000」は「第一事業部」を示す部署コードである。次の「02」は「配下」を示すフラグであり、最後の「01」は文書に対する参照権を表わしている。すなわち、一番目のアクセス権情報「0x110000.02.01」は、第一事業部配下の者に文書に対する参照権が与えられていることを示している。
二番目のアクセス権情報「0x111000.01.03」における最初の「0x111000」は「第一営業部」を示す部署コードである。次の「01」は「直下」を示すフラグであり、最後の「03」は文書に対する参照権だけでなく持出権が与えられていることを表わしている。すなわち、「03」は、参照権を示す「01」というフラグと、持出権を示す「02」というフラグの加算された値のフラグとなっている。
三番目のアクセス権情報「0x000002.01.07」における最初の「0x000002」は「佐藤大輝」という個人を示すユーザコードである。次の「01」は「直下」を示すフラグであり、最後の「07」は文書に対する参照権と持出権と共に更新権も与えられていることを表わしている。すなわち、「07」は、参照権を示す「01」というフラグと、持出権を示す「02」というフラグと、更新権を示す「04」というフラグの加算された値のフラグとなっている。
図7は、図6の説明の前提となる本実施の形態で説明する会社組織の一部と、これらのコード情報、フラグおよびアクセス権の識別子(フラグ)との関係を一覧として示したものである。「鈴木健太」等の他の者あるいは部署についてのアクセス権情報についても、この図7を基にして数値パターンが設定されることになる。
図8は、文書データ記憶部に記憶された文書に係わる全アクセス権情報を数値パターンとして体系化して示したものである。図7に示した組織やその下の個人のアクセス権情報は、このように数値パターンとして表示することができる。たとえば、図8の1行目の数値パターンは、「0x111000」が「第一営業部」を示し、その直下の下位2桁「01」が直下を示し、更にその下の2桁「01」が「参照権」を示している。
図9は、図6に示した文書情報に対応するインデックス情報欄とアクセス権パターン化リストの組を示したものである。このうち、左側のインデックス情報欄は、図6における本文と、属性情報における「更新者」等の日本語の文字情報を2−gram方式で2文字ずつ抽出したものとなっている。属性情報におけるこれら以外の情報は、分割せずにそのままの文字情報として抽出している。すなわち、英数字や記号については空白やカンマ、ピリオド等の区切り文字までも一つのまとまりとして抽出する。
図9における右側のアクセス権パターン化リストは、図6で「アクセス権情報」として規定した全数値パターンを示している。これは、図6に示したアクセス権情報に関する数値パターンであり、現在の文書情報に関係したアクセス権だけに限定しておらず、可能性のあるアクセス権情報をすべて含んでいる。
インデックス情報欄について更に具体的に説明する。インデックス情報欄は、その第12行目に2−gram方式の最初の抽出文字である「全館」を含むインデックス情報としての「全館(1,2,0)」が存在する。これは、図6における「本文」の内容の最初の2文字である「全館」に、文書IDが「1」で、本文の属性IDが「2」の最初のインデックス情報としての「0」を表わしたものである。第26行目(最下行)には、2−gram方式の次の抽出文字である「館停」を含むインデックス情報としての「館停(1,2,1)」が存在する。これは、図6における「本文」の内容の2文字目と3文字目である「館停」に、文書IDが「1」で、本文の属性IDが「2」の次のインデックス情報としての「1」を表わしたものである。
図6に示した文書情報では、「更新者」と「作成者」が共に「佐藤大輝」となっている。このため、図9におけるインデックス情報欄の第9行目には、「佐藤大輝」についての2−gram方式の最初の抽出文字である「佐藤」を含むインデックス情報としての「佐藤(1,5,35)(1,6,39)」が存在する。ここで「(1,5,35)」における「1,5」は、図6における文書IDが「1」で、更新者に対応する属性IDが「5」を表わしたものである。同様に「(1,6,39)」における「1,6」は、図6における文書IDが「1」で、作成者に対応する属性IDが「6」を表わしている。「(1,5,35)」における「35」および「(1,6,39)」における「39」はインデックス情報の順番である。ただし、これらの順番を表わす数値は、属性が変わるたびに所定のオフセット値が設けられる関係で、連続した値とはなっていない。
「タイトル」の「1お知らせ」についても、同様にインデックス情報欄の第1行目や第5行目等の行に抽出されている。また、図6における「作成日」や「ファイル種類」については、インデックス情報欄の第2行目と第3行目に抽出されている。これらについての詳細な説明は省略する。
図10は、情報検索システムの検索の対象となる文書情報に何らかの変更が加えられた場合の文書データ処理装置によるインデックス情報の変更の様子を表わしたものである。図4と共に説明する。
文書データ処理装置202の文書データ処理部231は、文書処理ユーザ208によって文書情報の追加、変更、削除といった本文内容の変更や属性情報の変更が行われるのを監視している(ステップS301)。文書情報は、ワードプロセッサ用のアプリケーションソフトウェアや、表計算用のアプリケーションソフトウェア等のソフトウェアを使用して作成されたもので、バイナリデータとなっている。文書情報の変更は、文書本文の変更だけでなく、図6で説明したような属性情報の変更も含まれる。属性情報としてはタイトル、作成者、作成日、更新者、更新日、概要、ファイル種類を一例として挙げることができる。
文書情報の変更が行われたら(ステップS301:Y)、文書データ処理装置202は文書情報通信部232を使用して更新情報を検索インデックス処理装置201に送信して(ステップS302)、処理を終了する(エンド)。文書処理ユーザ208はアクセス権の設定を行うことができるので、このとき、アクセス権の変更があれば、その内容も更新情報として検索インデックス処理装置201に送信されることになる。
図11は、更新情報を受信した検索インデックス処理装置の処理の様子を表わしたものである。図4と共に説明する。
検索インデックス処理装置201の文書情報収集部211は、文書データ処理装置202から更新情報が送られてくるのを監視している(ステップS321)。更新情報を受信すると(Y)、文書情報収集部211は、文書情報におけるアクセス権情報が更新されているかをチェックする(ステップS322)。アクセス権情報が更新されている場合には(Y)、そのアクセス権情報をインデックス化する(ステップS323)。そして、他の更新情報が存在するかをチェックする(ステップS324)。アクセス権情報が更新されていないことが判別された場合には(ステップS322:N)、前記したステップS324の処理に進むことになる。
ステップS324で他の更新情報が存在する場合には(Y)、インデックス情報更新部213が文書情報におけるテキスト情報および属性情報を抽出して(ステップS325)、これらをインデックス化する(ステップS326)。すなわち、アクセス権情報以外に変更があった場合には、文書本体のバイナリデータからテキストの部分を抽出して、属性情報と共にインデックス化すればよい。
以上のようにして得られたインデックス情報は、インデックス情報更新部213がインデックス情報記憶部203に送出して、検索インデックス241に格納させ(ステップS327)、処理を終了する(エンド)。ステップS324で他の更新情報が存在しない場合には(N)、ステップS323でインデックス化した情報をインデックス情報更新部213がインデックス情報記憶部203に送出して、検索インデックス241に格納させることになる(ステップS327)。
なお、図10および図11では文書情報の更新について説明したが、図4に示す文書処理ユーザ208は新規に文書を作成することができることは当然である。新規に文書を作成した場合、文書処理ユーザ208は参照権等のアクセス権の設定も可能である。作成された文書情報は、文書データ処理装置202で処理され、図11のステップS323あるいはステップS326で説明したようにインデックス化される。そして、インデックス情報更新部213がインデックス情報記憶部203にインデックス情報を送信して、検索インデックス241として格納されることになる。
ところで、図11では検索インデックス処理装置201(図4参照)がステップS322でアクセス権情報の更新が行われたかをチェックしている。これにより、アクセス権情報のみを変更した場合には、ステップS323でそれについてのインデックス化を行うことにして、ステップS326による一般的なインデックス化処理を行わない。これは、アクセス権情報のみを変更した場合には他のインデックス情報の変更を伴わないので、インデックス情報の変更を伴うステップS326による一般的なインデックス化処理と区別して、処理の効率化を図るためである。この点について、次に詳しく説明する。
図12は、図6に示した文書情報における更新者の氏名が変更になった場合の変更後の文書情報の内容を表わしたものである。図12に○印で示したように、更新者の氏名が「佐藤大輝」(図6)から「山田健」に変更されている。また、これに伴って「アクセス権情報」の欄には、新たに「山田健」に関するアクセス権情報が追加されている。
図13は、図12に示した文書情報に対応するインデックス情報欄とアクセス権パターン化リストの組を示したものである。このうち、左側のインデックス情報欄では、更新者の氏名が4文字の「佐藤大輝」から3文字の「山田健」に変更されている。これにより、図9と比較すると、○印で示した各行でインデックス情報欄の変更が行われている。また、インデックス情報欄の行数は、図9の26行から28行と2行増加しており、オフセットも変更している。
この図13で示したように、各属性を表わす情報は可変長のものが多いので、文書の属性が変更された場合にはオフセット値も変更されることになる。この結果、文書自体は変更されず、更新者だけが変更になったようなシンプルな変更の場合でもすべての属性、文書本体等のデータを再インデックス化して変更する必要が生じることになる。
図14は、これに対してアクセス権情報だけが変更された場合の文書情報の一例を示したものである。この例の場合には、図6で3種類のアクセス情報があったのが、○印で示した箇所が追加あるいは変更されて、全部で4種類に変更されている。変更されたアクセス権情報については、破線261で示す領域内で内容を注釈している。
図15は、図14に示したアクセス権情報の変更に対応するインデックス情報欄ならびにアクセス権情報の組を表わしたものである。図9のインデックス情報欄と図15のインデックス情報欄を比較すると、何らの変更もなく、欄の行数も変化していない。また、アクセス権パターン化リストについても、図9と図15でデータ構造自体に変更はなく、○印で示した行で属性ID等の若干の変更があるだけである。
このように本実施の形態では、図7で示した会社組織を基にして全アクセス権情報を数値パターンとして体系化し、アクセス権パターン化リストとして用意することにした。したがって、アクセス権情報の変更のみがあったときには、インデックス情報欄を変更する必要がなく、図10のステップS326の処理を省略することができる。また、この場合にはアクセス権パターン化リストの変更もわずかで済むという利点がある。
これにより、本実施の形態では、検索インデックスの検索時間を短縮することができるという第1の効果を生じる。検索インデックスの中にアクセス権情報を保持しているため、検索時に元の文書にアクセスする必要がなくなるからである。また、本実施の形態では検索インデックスの更新時間を短縮することができる。これは、アクセス権の変更のみを行う文書に対して、アクセス権以外の情報の再インデックス化が不要となるからである。
<発明の変形可能性>
以上説明した実施の形態では、図11のステップS322でアクセス権情報が更新されているかを先にチェックして、更新されている場合にはステップS323でこれに対するインデックス化を行ったが、これに限るものではない。たとえは文書の作成日や更新日を示す日付情報は、属性情報の中で固定長となっているので、これらをまとめてインデックス化するようにしてもよい。
図16は、本発明の変形例における更新情報を受信した検索インデックス処理装置の処理の様子を表わしたものである。図16で図11と同一部分には同一のステップ番号を付しており、これらの説明を適宜省略する。図4と共に説明する。
この変形例でも、検索インデックス処理装置201の文書情報収集部211は、文書データ処理装置202から更新情報が送られてくるのを監視している(ステップS321)。更新情報を受信すると(Y)、インデックス情報更新部213は、まずアクセス権情報と、日付情報をインデックス化する(ステップS401)。アクセス権情報が更新されていなければ、更新された日付情報だけをインデックス化する。
次にインデックス情報更新部213は、これらアクセス権情報と、日付情報以外に更新されている情報が存在するかをチェックする(ステップS402)。このような更新情報が存在する場合には(Y)、インデックス情報更新部213が文書情報におけるテキスト情報および属性情報を抽出して(ステップS325)、これらをインデックス化する(ステップS326)。
以上のようにして得られたインデックス情報は、インデックス情報更新部213がインデックス情報記憶部203に送出して、検索インデックス241に格納させ(ステップS327)、処理を終了する(エンド)。ステップS402で他の更新情報が存在しない場合には(N)、ステップS401でインデックス化した情報をインデックス情報更新部213がインデックス情報記憶部203に送出して、検索インデックス241に格納させることになる(ステップS327)。
以上説明した実施の形態および変形例では、2−gram方式でインデックス化を行ったが、一般的なN−gram方式で文字の分割数が3以上のインデックス化を行ってもよい。更にこのようなN−gram方式以外の手法でインデックス情報を作成する場合にも、本発明を適用できることも当然である。
更に実施の形態および変形例では、リソースサーバ204を使用したシステムを説明したが、これらを構成する各部が適宜1つのコンパレータに統合された簡略化された情報検索システムに本発明を適用してもよい。また、検索インデックス処理装置201とインデックス情報記憶部203がインターネットを介してウェブ上に存在するようなシステムであっても構わない。
また、実施の形態および変形例では、検索の対象を文書としたが、文字列によってその内容を表現できる各種の情報を検索の対象として本発明を適用することができることは当然である。たとえば、ある工業製品の内容やその工業製品の属性を文字列で表わすことができるとき、その工業製品の改良等の情報の属性の更新に本発明を適用することができる。
更に実施の形態ではステップS401でアクセス権情報と日付情報を無条件にインデックス化したが、これに限るものではない。アクセス権情報は日付情報以外の情報も更新される可能性が高いような場合には、これを事前にチェックすることが有効である。これによりインデックス化を2段階で行う手間を省くことができる。
10、200 情報検索システム
11 インデックス情報抽出手段
12 検索インデックス作成手段
13 検索インデックス群記憶手段
14 特定項目更新有無判別手段
15 特定項目抽出手段
16 検索インデックス更新手段
20 再インデックス化処理方法
21 更新情報受信ステップ
22 特定項目更新有無判別ステップ
23 インデックス情報抽出ステップ
24 検索インデックス更新ステップ
30 再インデックス化処理プログラム
31 更新情報受信処理
32 特定項目更新有無判別処理
33 インデックス情報抽出処理
34 検索インデックス更新処理
201 検索インデックス処理装置
202 文書データ処理装置
203 インデックス情報記憶部(検索インデックス群記憶手段)
204 リソースサーバ
205 検索用端末
211 文書情報収集部
212 インデックス作成部
213 インデックス情報更新部
221 文書データ記憶部
222 組織情報記憶部
231 文書データ処理部
232 文書情報通信部
241 検索インデックス

Claims (8)

  1. 検索の対象となる情報の内容およびその情報そのものの属性情報を対象に前記情報の検索語をインデックス情報として抽出するインデックス情報抽出手段と、
    このインデックス情報抽出手段によって抽出した個々のインデックス情報をそれぞれ1単位ずつの記憶領域に割り当てる形で前記情報そのものの内容や前記属性情報の項目に分けた形で全項目を1つに束ねた情報ごとの検索インデックスを作成する検索インデックス作成手段と、
    この検索インデックス作成手段によって作成した検索インデックスを検索の対象となる情報単位で記憶する検索インデックス群記憶手段と、
    この検索インデックス群記憶手段に検索インデックスとして記憶した検索の対象となる情報あるいはその属性情報の更新が行われるとき、更新によっては前記記憶領域の総数が変動しない項目のうちで予め定めた項目としての特定項目のみについて更新が行われたか否かを判別する特定項目更新有無判別手段と、
    この特定項目更新有無判別手段で前記特定項目のみの更新が行われたと判別したとき前記特定項目について前記インデックス情報抽出手段を用いてインデックスの抽出を行う特定項目抽出手段と、
    この特定項目抽出手段によって抽出した前記特定項目についてのインデックス情報を前記検索インデックスにおける前記記憶領域の総数および配置関係を固定した状態で更新する検索インデックス更新手段
    とを具備することを特徴とする情報検索システム。
  2. 前記検索の対象となる情報は文書であることを特徴とする請求項1記載の情報検索システム。
  3. 前記インデックス情報抽出手段は、N−gram方式で検索語を抽出する手段であることを特徴とする請求項1記載の情報検索システム。
  4. 前記文書の属性情報の1つとしての文書のアクセス権の種類を示すアクセス権情報は、アクセス権の態様をすべてパターン化したアクセス権パターン化リストの中から選択する形式となっており、前記アクセス権パターン化リストは該当する文書の検索インデックスに格納されていることを特徴とする請求項2記載の情報検索システム。
  5. 前記アクセス権情報は、前記特定項目の1つであることを特徴とする請求項4記載の情報検索システム。
  6. 文書の作成や更新の日付を示す日付情報は、前記特定項目の1つであることを特徴とする請求項4記載の情報検索システム。
  7. 検索の対象となる情報の更新が行われたとき、更新後の情報の内容あるいはその情報の属性情報からなる更新情報を受信する更新情報受信ステップと、
    この更新情報受信ステップで前記更新情報を受信したとき、前記情報の更新が既にその情報について作成された情報検索用の検索インデックスにおける情報の属性情報についての記憶領域の変更を伴わないとされる予め定めた特定項目のみについての更新であるかを判別する特定項目更新有無判別ステップと、
    この特定項目更新有無判別ステップで前記特定項目のみについての更新であると判別したとき、その特定項目についてのみ情報の検索語をインデックス情報として抽出するインデックス情報抽出ステップと、
    このインデックス情報抽出ステップで抽出したインデックス情報を、前記検索インデックスにおける記憶領域を他の項目との関係で固定した状態で更新する検索インデックス更新ステップ
    とを具備することを特徴とする再インデックス化処理方法。
  8. コンピュータに、
    検索の対象となる情報の更新が行われたとき、更新後の情報の内容あるいはその情報の属性情報からなる更新情報を受信する更新情報受信処理と、
    この更新情報受信処理で前記更新情報を受信したとき、前記情報の更新が既にその情報について作成された情報検索用の検索インデックスにおける情報の属性情報についての記憶領域の変更を伴わないとされる予め定めた特定項目のみについての更新であるかを判別する特定項目更新有無判別処理と、
    この特定項目更新有無判別処理で前記特定項目のみについての更新であると判別したとき、その特定項目についてのみ情報の検索語をインデックス情報として抽出するインデックス情報抽出処理と、
    このインデックス情報抽出処理で抽出したインデックス情報を、前記検索インデックスにおける記憶領域を他の項目との関係で固定した状態で更新する検索インデックス更新処理
    とを実行させることを特徴とする再インデックス化処理プログラム。
JP2009067972A 2009-03-19 2009-03-19 情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム Pending JP2010224601A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009067972A JP2010224601A (ja) 2009-03-19 2009-03-19 情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009067972A JP2010224601A (ja) 2009-03-19 2009-03-19 情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム

Publications (1)

Publication Number Publication Date
JP2010224601A true JP2010224601A (ja) 2010-10-07

Family

ID=43041762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009067972A Pending JP2010224601A (ja) 2009-03-19 2009-03-19 情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム

Country Status (1)

Country Link
JP (1) JP2010224601A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196544A (ja) * 2012-03-22 2013-09-30 Nec Corp 文書管理システム、文書管理方法、及びそのためのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196544A (ja) * 2012-03-22 2013-09-30 Nec Corp 文書管理システム、文書管理方法、及びそのためのプログラム

Similar Documents

Publication Publication Date Title
JP4857075B2 (ja) ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム
US8620897B2 (en) Indexing and searching features including using reusable index fields
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20080147578A1 (en) System for prioritizing search results retrieved in response to a computerized search query
US8171052B2 (en) Information search system, method and program
US9619571B2 (en) Method for searching related entities through entity co-occurrence
KR101510973B1 (ko) 언어 로캘에 기초한 인덱싱 및 검색 방법
NO314059B1 (no) Fremgangsmåte for strukturering og söking av informasjon
US9563691B2 (en) Providing search suggestions from user selected data sources for an input string
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
US20080147588A1 (en) Method for discovering data artifacts in an on-line data object
US10242123B2 (en) Method and system for handling non-presence of elements or attributes in semi-structured data
US20140359409A1 (en) Learning Synonymous Object Names from Anchor Texts
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
US20140129543A1 (en) Search service including indexing text containing numbers in part using one or more number index structures
JP2005242416A (ja) 自然言語文の検索方法および検索装置
JP2004220176A (ja) データベース検索システム、その検索方法及び検索に用いられるデータファイルの作成方法並びにデータファイルを格納した記録媒体
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP2010224601A (ja) 情報検索システム、再インデックス化処理方法および再インデックス化処理プログラム
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
Diaz et al. WorkflowHunt: combining keyword and semantic search in scientific workflow repositories
US20080033953A1 (en) Method to search transactional web pages
JP2022050169A (ja) 情報処理システム及びプログラム
US9754030B2 (en) Free text search engine system and method