JP3627850B2 - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP3627850B2
JP3627850B2 JP2000195076A JP2000195076A JP3627850B2 JP 3627850 B2 JP3627850 B2 JP 3627850B2 JP 2000195076 A JP2000195076 A JP 2000195076A JP 2000195076 A JP2000195076 A JP 2000195076A JP 3627850 B2 JP3627850 B2 JP 3627850B2
Authority
JP
Japan
Prior art keywords
word
data
text data
update
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000195076A
Other languages
English (en)
Other versions
JP2002015004A (ja
Inventor
智子 藤田
泰樹 飯塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000195076A priority Critical patent/JP3627850B2/ja
Publication of JP2002015004A publication Critical patent/JP2002015004A/ja
Application granted granted Critical
Publication of JP3627850B2 publication Critical patent/JP3627850B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、検索対象のテキストデータを単語に分割して全文検索用の索引データを作成し、この索引データを用いて、検索条件文字列を含むテキストデータを検索する文書検索装置に関し、特に、索引データの更新を自動的に行えるようにしたものである。
【0002】
【従来の技術】
テキスト中の全ての文字列を検索対象とする全文検索では、例えば「東京都議会」という文字列は、「京都」で全文検索した場合でも抽出されるが、こうした検索ノイズは検索対象となる文字列を単語に分割することで解決できることが分かっている。
【0003】
文章を単語に分割する場合は、通常は形態素解析処理が行われる。形態素解析では、解析用の単語辞書を用意して、文章の単語への分割処理が行われるが、形態素解析の精度はこの辞書がどれだけ整っているかに依存する。辞書に載っていなものを未知語(未登録語)として推定し収集する方法が特開平9−288673号公報などで提案され、また、テキストの文字列の出現頻度を網羅的に調べて、その出現頻度から単語や慣用句を収集する方法が特開平9−138801号公報などに提案されている。
【0004】
全文検索では、検索対象のテキストデータを単語に分割し、単語の始端位置及び終端位置を明示した全文検索用の索引データを作成する。そして、この索引データを用いて、単語の始端位置及び終端位置をも含めて、検索条件文字列と一致する索引データを検索し、探し当てた索引データから、検索条件文字列を含むテキストデータを特定する。
【0005】
【発明が解決しようとする課題】
しかし、検索対象のテキストデータを単語に分割して全文検索する従来の文書検索システムでは、追加されたテキストを単語に分割して索引データを作成する際に、新しい単語が出現すると、それまでに作成されたテキストデータの索引データを更新することが必要になる。
【0006】
例えば、「高麗人参」を1つの単語としてテキストデータを単語分割し、索引データが作成されていた場合に、追加したテキストデータから「高麗」という単語が新たに出現すると、先の索引データの「高麗人参」も「高麗」「人参」に分割することが必要になる。
【0007】
こうした場合、従来のシステムでは、索引データの更新を人手によって行わなければならない。
【0008】
本発明は、こうした従来技術の課題を解決するものであり、検索対象のテキストデータを単語分割して索引データを作成し、それを用いて検索を実施する文書検索装置において、索引データの更新を自動的に行う装置を提供することを目的としている。
【0009】
【課題を解決するための手段】
そこで、本発明では、検索対象のテキストデータを単語に分割し、単語の始端及び終端の情報を含む索引データを作成して、テキストデータの全文検索を行う文書検索装置において、テキストデータを記憶するテキストデータ記憶手段と、自然言語における特有のパターン等の知識を利用してテキストデータから単語を抽出し、記憶する単語記憶手段と、単語記憶手段に記憶された抽出単語を利用してテキストデータを単語に分割する単語分割手段と、テキストデータを単語に分割した単語分割情報を記憶する単語分割情報記憶手段と、単語分割情報とテキストデータとから索引データを作成して記憶する索引データ作成手段と、索引データの更新を行うための更新条件を記憶するデータ更新条件記憶手段と、検索対象に追加するテキストデータが入力されたとき、データ更新条件記憶手段に記憶された更新条件に当てはまる場合は、単語記憶手段に、そのテキストデータからの単語の抽出を行わせ、単語記憶手段によって抽出、記憶された単語が既存の抽出単語に比べて新規であるとき、単語分割手段に、単語記憶手段に記憶された全ての抽出単語を使ってテキストデータ記憶手段に記憶されているテキストデータの再分割を行わせて、単語分割情報が更新されたか否かを調べ、単語分割情報が更新された場合に、索引データ作成手段に索引データの更新を行わせ、一方、更新条件に当てはまらない場合は、索引データ作成手段に、追加されたテキストデータに関する索引データの作成だけを行わせるデータ更新調査手段とを設けている。
【0010】
そのため、テキストデータが追加されると、自動的に、既に登録されているテキストデータにも最新情報による単語分割が反映され、索引データの更新が自動的に行われる。
【0011】
【発明の実施の形態】
(第1の実施形態)
第1の実施形態の文書検索装置は、図1に示すように、検索対象となるテキストデータが電子化された形で入力し、検索時には検索条件文字列が入力する入力手段101と、入力手段101から入力したテキストデータ及び入力日時などの履歴を記憶するテキストデータ記憶部102と、テキストデータ記憶部102に記憶されたテキストデータから単語を検出し、その単語を発見した位置でテキストデータを単語に分割する単語分割部103と、単語に分割されたテキストデータの情報(単語分割情報)を記憶する単語分割情報記憶手段104と、単語分割情報記憶手段104に記憶されている単語分割情報と、テキストデータ記憶部102に記憶されているテキストデータとから、検索を行うための索引データを作成し記憶する索引データ作成部105と、入力手段101からテキストデータの追加入力があると、単語分割情報の更新があるかを調べ、あった場合、索引データ作成部105に新たに索引データの更新を実行させるデータ更新調査手段106と、入力手段101から検索条件文字列が入力されると、索引データ作成部105に記憶されている索引データに対して検索を行う検索手段107と、検索結果やデータの情報などを出力する出力手段108とを備えている。
【0012】
さらに、各部の詳細な構成について説明する。
【0013】
テキストデータ記憶部102は、図2に示すように、入力手段101から入力されたテキストを記憶するテキストデータ記憶手段102aと、入力の履歴を記憶するテキストデータ更新記録記憶手段102bとからなる。入力されるテキストデータはユニークなレコード番号が付けられており、このレコード番号でテキストデータの識別・管理を行う。テキストデータ更新記録記憶手段102bには、入力された日時、レコード番号、索引データが作成済みか否かを示す索引データ作成チェックが記憶される。入力時は、索引データは作成されていないので索引データ作成チェックは「未」の状態である。図中では、「未」の状態を「0」で、索引データ作成済の状態を「1」とした。
【0014】
単語分割部103は、図3に示すように、テキストデータ記憶手段102aに記憶されたテキストデータから、自然言語における特有のパターン等の知識を利用して単語を抽出する単語抽出手段103aと、抽出された単語を記憶する単語記憶手段103bと、テキストデータ記憶手段102aに記憶されたテキストデータを、単語記憶手段103bに記憶された抽出単語を利用して単語に分割する単語分割手段103cと、単語抽出手段103aや単語分割手段103cが利用する単語処理用の知識を記憶する単語処理用知識記憶手段103dとからなる。
【0015】
単語記憶手段103bは初期状態では、何も記憶していない。単語処理用知識記憶手段103dは、単語処理用の知識として、単語抽出用、単語分割用の知識を記憶している。これらの知識は、初期状態から不変である。
【0016】
索引データ作成部105は、図4に示すように、単語分割情報記憶手段104に記憶されている単語分割情報とテキストデータ記憶部102に記憶されているテキストデータとを用いて検索を行うための索引データを作成する索引データ作成手段105aと、索引データ作成手段105aが作成した索引データを記憶する索引データ記憶手段105bとから構成されている。索引データは、テキストデータの中に出現する文字の位置情報や、単語分割の情報を、そのテキストデータのレコード番号と一緒に保持するものである(後述する図8の81)。
【0017】
以上のように構成された文書検索装置について、その動作を説明する。まず、データ登録処理の基本であるテキストデータの初期登録(テキストデータが入力してから、索引データが作成、登録されるまで。つまり、単語分割情報や索引データの更新は行われず、単語再分割が行われない状態)の大きな処理の流れを図5で示す。入力手段101からテキストデータが入力されると、単語分割部103で単語抽出処理と単語分割処理とが行われ、続いて索引データ作成部105で索引データ作成処理が行われる。以下、処理の詳細について説明する。
【0018】
まず、入力手段101から、図2で示すように、レコード番号が添付された、検索対象となるテキストデータが入力され、テキストデータ記憶手段102aに記憶される。その際、入力された日時、レコード番号、索引データ作成チェック有無が、データ更新記録記憶手段102bに記憶される。すでに述べたように、この時点で索引データ作成チェックは「未」の状態、つまり、「0」と記憶される。
【0019】
続いて、テキストデータの入力完了とテキストデータ更新記録の記憶完了とを受けて、単語分割部103が、テキストデータを単語に分割する処理を行う。
【0020】
まず、単語抽出処理手段103aによりテキストデータから単語が抽出される(単語抽出処理)。抽出には単語処理用知識記憶手段103dの情報が用いられる。抽出された単語は逐次、単語記憶手段103bに蓄えられる。単語抽出処理が完了し、全ての抽出単語が単語記憶手段103bに蓄えられると、単語分割手段103cは、前述の抽出単語と単語処理用知識記憶手段103dの情報とを基に、テキストデータ記憶手段102aに記憶されたテキストデータを単語に分割し、単語分割情報を単語分割情報記憶手段103dに記憶する(単語分割処理)。
【0021】
上記の単語分割動作の具体例を図6を用いて説明する。単語抽出手段103aでは、辞書を用いずに、字面のパターン解析のみでテキストデータから単語を抽出する。日本語の場合、構文解析しなくても格助詞と判断される平仮名文字列のパターンを発見することが可能であり、このパターンを用いて単語を発見する。この解析に用いるパターン情報は、単語処理用知識記憶手段103dに記憶されているもののうち抽出用のものを用いる。
【0022】
抽出用のパターン情報は、例えば、図6に「抽出パターン例」として記載しているように、
・「平仮名+漢字2文字+“は、”」のパターンが存在する場合、漢字2文字は単語である。
【0023】
・「句読点+漢字2文字+“を”」のパターンが存在する場合、漢字2文字は単語である。
【0024】
・「平仮名+カタカナ+“は、”」のパターンが存在する場合、カタカナは単語である。
【0025】
・「平仮名+カタカナ+“を”」のパターンが存在する場合、カタカナは単語である。
【0026】
・「“、”+漢字2文字+“で”」のパターンが存在する場合、漢字2文字は単語である。
などがある。
【0027】
図6中の文字列1「その処理は、単語を使用して…」から、単語処理用知識記憶手段103dに記憶されている、これらの抽出用パターンを用いて、「処理」「単語」という単語が抽出され、単語記憶手段103bに記憶される。
【0028】
また、単語処理用知識記憶手段103dには、分割用のパターン情報として、例えば、図6に「分割パターン例」として記載しているように、
・「抽出単語+漢字2文字+抽出単語」のパターンが存在する場合、漢字2文字は単語として分割する。
と云う情報が記憶されている。別の文字列「そして単語分割処理は、…」の単語分割処理では、前述の単語抽出処理で得られた抽出単語と、単語処理用知識記憶手段103dに記憶されている分割用パターンとを用いて、「そして[単語][分割][処理]は、…」と分割される。ここでの、「[」記号は単語の始端を、「]」は単語の終端を示す。以上の単語分割方法の詳細は、特願平11−000988号に記載されている。
【0029】
単語分割結果は、当該テキストデータのレコード番号と単語分割点(つまり、ある単語の始端位置と終端位置との組)とを表す単語分割情報として整理され、単語分割情報記憶手段104に記憶される。単語の始端位置及び終端位置は、その単語の始端及び終端の文字が当該テキストデータの先頭から何番目の文字であるかによって表す。「そして[単語][分割][処理]は、…」の場合、[単語]の始端位置は4、終端位置は5、[分割]の始端位置は6、終端位置は7、また、[処理]の始端位置は8、終端位置は9となる。
【0030】
この単語分割情報は、図7に示すように、単語分割情報記憶手段104に記憶される。
【0031】
次に、索引データ作成手段105aがテキストデータの索引を作成する。図8に示すように、レコード番号4のテキストデータが「本形態は本文に…」であるとすると、まず、そのテキストデータの先頭から出現する文字の位置情報を調べ、また、単語分割情報記憶手段104に記憶されている単語分割情報を参照し、テキストデータから生成したn文字連鎖の組(ここでは、n=2とする。2文字組は、「本形」「形態」「態は」「は本」「本文」「文に」となる)の各々に対して、レコード番号と文字位置情報と単語分割情報とを次の順序で組み込んで索引データ81を作成する。
【0032】
2文字組(レコード番号,m1,m2,1番目の文字単語始端フラグ,1番目の文字単語終端フラグ,2番目の文字単語始端フラグ)
ここで、m1、m2は、2文字組の1番目の文字及び2番目の文字の文字位置情報を表し、テキストデータの先頭から何番目の文字であるかを示す文字番号で表示される。また、1番目の文字単語始端フラグ、1番目の文字単語終端フラグ及び2番目の文字単語始端フラグは、2文字組の1番目、2番目の文字が単語の分割点、つまり、単語の始端・終端に当たるかどうかを表す3ビットのフラグである。単語の始端・終端である場合はフラグ1、そうでない場合は0とする。この3ビットにより、(1番目の文字が単語の始端であるか、1番目の文字が単語の終端であるか、2番目の文字が単語の終端であるか)が表される。なお、文字位置情報は、テキストデータ先頭からの各文字の出現順だけでなく、各文字別の当該テキストデータ中に出現する順番など、出現する文字のつながりが分かる情報であれば、それを用いて表示することもできる。また、単語の始端・終端フラグの詳細な使用方法は、特願平9−293876号に記載されている。
【0033】
作成された索引データ81は、2文字組の1番目の文字をキーとしてまとめられ、索引データ記憶部104bに記憶される。
【0034】
最後に、テキストデータ更新記録の索引データ作成チェックを作成済の状態「1」に書きかえる。
【0035】
次に、テキストデータの追加により、新たな単語が出現した場合の単語再分割の必要性の調査と、その結果に伴い単語分割情報及び索引データの更新を行う場合のテキストデータの登録処理について説明する。この処理の大きな流れを図9に示す。テキストデータの初期登録の処理は同じであるが、テキストデータが入力手段101から追加入力されると、データ更新調査手段106が、単語分割情報の更新が必要かどうか調査する(データ更新調査処理)。
【0036】
以下、データ更新調査処理の流れを図10で示す。
【0037】
ステップ1:新しいテキストデータがテキストデータ記憶部102に登録されると、
ステップ2:データ更新調査手段106は、テキストデータ更新記録記憶手段102bを参照して、テキストデータ更新記録の索引データ作成チェックが未処理の状態「0」の新たに追加されたテキストデータのレコード番号を取得し、
ステップ3:テキストデータ記憶手段102aから、該当するテキストデータを取り出し、
ステップ4:その追加テキストデータから単語抽出手段103aに単語の抽出を実行させる。
【0038】
ステップ5:その結果、得られた抽出単語を単語記憶手段103bにすでに記憶されている抽出単語と比較し、
ステップ6:新しく抽出された単語があるかを調べる。新しく抽出された単語がなかった場合は、
ステップ12:データ更新調査手段106は、単語分割手段103cに該当テキストデータの単語分割を実行させ、得られた単語分割情報を単語分割情報記憶手段104に追加して記憶させ、
ステップ13:続いて、索引データ作成手段105aに、追加した単語分割情報を用いて索引データの作成を実行させる。そして作成された索引データを索引データ記憶手段105bに追加して記憶させる。
【0039】
ステップ14:追加テキストデータに関する更新記録の索引データ作成チェックを処理済みの状態「1」に書き換える。
【0040】
以上の処理が終了すると、再び、データ更新調査手段106はテキストデータの入力待ち状態になる。
【0041】
一方、ステップ6において、新しく抽出された単語があった場合には、
ステップ7:データ更新調査手段106は、新しく抽出された単語も単語記憶手段103bに記憶させ、続いて、単語分割手段103cに、テキストデータ記憶手段102aに記憶されている全てのテキストデータに対して単語分割処理を実行させ、
ステップ8:新たに得られた単語分割情報を、単語分割情報記憶手段104にすでに記憶されている単語分割情報と比較する。
【0042】
ステップ9:この比較で変更点がなかったら、ステップ12に移行して、そのまま索引データ作成手段105aに、追加分の索引データの作成を実行させ、得られた索引データを索引データ記憶手段105bに記憶する。
【0043】
一方、ステップ9において、変更点があったときは、
ステップ10:新たに得られた単語分割情報を単語分割情報記憶手段104に記憶し、
ステップ11:索引データ記憶手段105bに記憶されている全ての索引データの更新、つまり全索引データの再作成を索引データ作成手段105aに実行させる。このようにして得られた索引データは、索引データ記憶部105bに記憶させる。
【0044】
ステップ14:次いで、追加テキストデータに関する更新記録の索引データ作成チェックを処理済みの状態「1」に書き換える。
【0045】
続いて、検索処理の流れについて図11を用いて説明する。
【0046】
ステップ20:まず、検索条件文字列が入力手段101から入力されると、
ステップ21:検索手段107が、入力された検索条件文字列から図8の索引データ作成処理と同じように、2文字連鎖の組を作成する。ただし、検索条件文字列に対しては、単語の分割処理は必要ない。
【0047】
ステップ22:次に、作成された2文字連鎖の組を索引データ記憶手段105bに格納されている索引データと照合し
ステップ23:検索条件文字列を含むテキストデータのレコード数と該当レコード番号とを得る。
【0048】
ステップ24:該当レコード番号を取得したら、テキストデータ記憶手段102aに記憶されているテキストデータから、該当テキストデータを取得し、
ステップ25:出力手段108に該当レコード数とテキストデ−タとを表示する。
【0049】
照合方法について具体的に説明する。検索条件として、「本形態」が入力されたとする。2文字連鎖の組「本形」「形態」を作成すると、「本形」は「本」の文字が単語の始端であり、「形態」は「態」の文字が単語の終端となる。そこでまず、「本」というキーでまとめられた索引データ中の1番目の文字の単語始端フラグが1で、1番目と2番目の文字の単語終端フラグが0のものと、「形」というキーでまとめられた索引データ中の1番目の文字の単語始端フラグ及び単語終端フラグが0で、2番目の文字の単語終端フラグが1のものの中で、レコード番号が同じで「形」の文字番号が同じものを照合して、同じテキストデータで「本形」「形態」と連続しているものを探す。以上の処理で得られたレコード番号から、該当テキストデータを取得する。
【0050】
以上、処理の流れを説明した。実際の自動データ更新効果について、具体例をあげて説明する。
【0051】
テキストデータに、「このフロンガスは、使用禁止で…」という文字列があったとすると、図6のように単語処理用知識記憶手段103dに記憶されている抽出用パターンを用いて「フロンガス」「使用禁止」といった単語が抽出され、「この[フロンガス]は、[使用禁止]で…」と分割される。
【0052】
この時点では、「フロン」という単語の完全一致で検索したい場合は、検索ヒットせず、「フロン」という文字列として検索すると、別に「フロンティア精神に基づき…」という文字列の一部も照合され検索ヒットする。
【0053】
次に、「そのガスは、フロンを用いた…」という文字列を含むテキストデータが追加で入力されたとする。同じように単語処理用知識記憶手段103dに記憶されている抽出用パターンを用いると、「ガス」「フロン」という単語が新たに抽出され、単語記憶手段103bに追加記憶される。すると、前記の単語「フロンガス」は「[フロン][ガス]」と分割することができる。これにより、「フロン」という単語の完全一致で検索したい場合も検索可能になる。
【0054】
このように、新しい単語が抽出されると、単語分割の結果も変わり、検索精度が上がる。
【0055】
しかしながら、この処理を人手で行うことは、非常に時間も手間も掛かることである。本実施形態により、この処理が自動で行えることは大変有益なことである。
【0056】
また、単語処理用知識として、単語の出現頻度なども利用できる。例えば、1つ出現した単語は新しい単語として認めず、単語抽出処理を行わないが、2個以上になったら単語として認める、という方式である。この場合も、単語の出現回数が2に達したため、その単語が単語分割に利用されていなかった過去のデータに戻って索引データの更新を行う場合にも本実施形態が適用できる。この場合にも、更新が必要な索引データを人手で調べるのは、非常に手間が掛かるが、本実施形態により、この処理が自動で行えることは大変有益なことである。
【0057】
以上のように、本実施形態の文書検索装置では、単語分割に必要な単語をテキストデータ中から自動抽出し、それを利用して単語分割する、人手による辞書の構築を必要としないノイズレス全文検索において、新しい単語を抽出した場合でも、データ更新調査手段106により、索引データの更新が自動的に行われるので、その実用上の効果は大きい。
【0058】
(第2の実施の形態)
第2の実施形態の文書検索装置は、データの更新状況を学習し、索引データの更新時期を自動で設定する。第1の実施形態の装置では、追加したテキストデータの単語抽出から新たな単語が抽出される度に、既存のテキストデータに対する単語再抽出と単語再分割とを実行し、単語分割情報に変更があったとき索引データの更新を行っているが、本実施形態では、ある一定期間中に単語分割情報の変更調査を行い、そこから得られた最適更新期間をもって、索引データの更新の実行を行う。
【0059】
第2の実施形態の文書検索装置は、図12に示すように、データ更新の条件を設定して索引データの更新を行わせるデータ更新調査部201を備えており、このデータ更新調査部201は、図13に示すように、索引データの更新の必要性を調査し、その更新を実行させるデータ更新調査手段201aと、設定された調査期間を記憶する調査期間記憶手段201bと、調査期間の調査結果を記録する結果記録手段201cと、調査結果から得られた更新条件を記憶するデータ更新条件記憶手段201dとを具備している。その他のブロック構成は第1の実施形態(図1)と変わりがない。
【0060】
この装置の入力手段101からは、検索対象のテキストデータとともに、そのテキストデータのデータ量や入力日時などが入力され、検索時には、検索条件文字列が入力され、また、データの更新条件の調査を行う調査期間が入力される。この調査期間は、調査期間記憶手段201bに記憶される。
【0061】
本実施形態の文書検索装置の動作について説明する。テキストデータの初期登録の方法は、第1の実施形態の場合と同じである。新たにテキストデータが追加入力された場合の処理の流れを図14に示している。
【0062】
ステップ30:新しいテキストデータがテキストデータ記憶部102に登録されると、
ステップ31:データ更新調査手段201aは、テキストデータ更新記録記憶手段102bを参照して、テキストデータ更新記録の索引データ作成チェックが未処理の状態「0」の新たに追加されたテキストデータのレコード番号を取得し、
ステップ32:テキストデータ記憶手段102aから、該当するテキストデータを取り出す。
【0063】
ステップ33:データ更新調査手段201aは、現時点が調査期間記憶手段201bに記憶された調査期間に該当するかどうかを識別し、調査期間中であるときは、
ステップ34:単語抽出手段103aに、追加テキストデータからの単語の抽出を実行させ、
ステップ35:その結果、得られた抽出単語を単語記憶手段103bにすでに記憶されている抽出単語と比較し、
ステップ36:新しく抽出された単語があるかを調べる。新しく抽出された単語がなかった場合は、
ステップ43:データ更新調査手段201aは、単語分割手段103cに追加テキストデータの単語分割を実行させ、得られた単語分割情報を単語分割情報記憶手段104に追加して記憶させ、
ステップ44:索引データ作成手段105aに、追加した単語分割情報を用いて索引データの作成を実行させ、作成された索引データを索引データ記憶手段105bに追加して記憶させる。
【0064】
ステップ45:次いで、テキストデータ更新記録の索引データ作成チェックを処理済みの状態「1」に書き換え、テキストデータの入力待ち状態に戻る。
【0065】
一方、ステップ36において、新しく抽出された単語があった場合には、
ステップ37:データ更新調査手段201aは、新しく抽出された単語も単語記憶手段103bに記憶させ、単語分割手段103cに、テキストデータ記憶手段102aに記憶されている全てのテキストデータに対して単語分割処理を行わせる。
【0066】
ステップ38:調査期間記憶手段201bは、新たに得られた単語分割情報と、単語分割情報記憶手段104にすでに記憶されている単語分割情報とを比較して、
ステップ39:テキストデータの入力番号(何回目のテキストデータの入力かを示す番号)と、そのテキストデータのサイズと、そのときの単語分割情報の変更点数とを結果記録手段201cに記録する。
【0067】
ステップ40:また、データ更新調査手段201aは、単語分割情報の変更点数が1以上であるとき、
ステップ41:新たに得られた単語分割情報により単語分割情報記憶手段104に記憶されている単語分割情報を更新し、
ステップ42:索引データ記憶手段105bに記憶されている全ての索引データの更新、つまり全索引データの再作成を索引データ作成手段105aに実行させる。このようにして得られた索引データは、索引データ記憶部105bに記憶させる。
【0068】
ステップ45:次いで、追加テキストデータに関する更新記録の索引データ作成チェックを処理済みの状態「1」に書き換える。データ更新調査手段201aは、その後、再び、テキストデータの入力待ち状態に戻る。
【0069】
また、ステップ40において、変更点がなかったときは、ステップ43に移行して、そのまま索引データ作成手段105aに、追加分の索引データの作成を実行させ、得られた索引データを索引データ記憶手段105bに記憶する。
【0070】
こうして、調査期間中に入力するテキストデータの各々に対して、単語抽出を行い、新しい単語が抽出されたら単語分割を行い、単語分割情報に変更点があるかどうかを調査し、その調査結果を結果記録手段201cに記録する。
【0071】
調査期間記憶手段201bは、調査期間中に集められた調査結果を基に、この3つのパラメータ(入力番号、サイズ、変更点数)から、データ更新を行うのに最適な期間や状態を決定し、データ更新条件記憶手段201cにデータ更新条件として設定する。
【0072】
実際には、3つのパラメータから、テキストデータの総入力量と単語分割情報変更点数との関係を調べ、総入力量がどれくらい増加する度に単語分割情報が変更になるかを得て、データ更新条件として総入力量をデータ更新条件記憶手段201cに記憶する。
【0073】
具体例を図15に示す。入力手段101より調査期間が入力され、調査期間記憶手段201bに調査期間「168h」と記憶されている。その期間に追加で入力されたテキストデータの総入力量と、その際の単語分割情報の変更箇所とが結果記録手段201cに記録されている。調査期間記憶手段201bは、総入力量が100MB増加する度に単語分割情報の変更個所数が増えるという情報を得て、データ更新条件記憶手段201cに「総入力量が100MB増加する度にデータ更新を行う」という条件を記憶させる。
【0074】
調査期間の終了後に新しいテキストデータが入力すると、データ更新調査手段201aは、テキストデータ記憶手段102aから、新たに入力したテキストデータを取り出し(ステップ32)、
ステップ46:データ更新条件記憶手段201dに記憶されたデータ更新条件を参照する。
【0075】
ステップ47:データ更新条件記憶手段201dにデータ更新条件が記憶されていないときは、
ステップ48:調査期間記憶手段201bが、結果記録手段201cに記録された調査結果を基に、データ更新条件を決定し、
ステップ49:データ更新条件記憶手段201cにデータ更新条件を記憶させる。
【0076】
ステップ50:データ更新調査手段201aは、追加テキストデータの入力がデータ更新条件に当てはまるかどうかを識別し、当てはまるときは、ステップ34以降の手順により、追加テキストデータから単語を抽出し、新しい単語が抽出されたときは、全てのテキストデータに対して単語分割の再処理を行い、単語分割情報に変更点がある場合には、全索引データを更新する。また、データ更新条件に当てはまらないときは、ステップ37以降の手順により、単語記憶手段103bにすでに記憶されている単語を用いて、追加テキストデータの単語分割を行い(ステップ37)、ステップ43、ステップ44の手順により、追加分の索引データを作成して、索引データ記憶手段105bに追加する。
【0077】
このようにして、追加されたテキストデータが、データ更新条件記憶手段201cに記憶された総入力量に達したときは、データ更新調査手段201aが、第1の実施形態と同じように全てのデータの更新、つまり、全てのテキストに対して単語抽出処理と単語分割処理と索引データ作成処理とを実行させ、索引データ記憶手段105bに記憶し、テキストデータ更新記録102bに索引データ作成済みと記録する。また、総入力量に達していない場合は、追加されたテキストデータだけの単語分割処理と索引データ作成処理とを実行させ、同じく索引データ記憶手段105bに記憶し、テキストデータ更新記録102bに索引データ作成済みと記録する。
【0078】
また、検索の処理についても、第1の実施形態と変わりがない。
【0079】
一般的に、一つの検索システムでは同種のデータを、定期的に追加入力することが多い。例えば新聞記事検索システムでは、毎日の新聞記事を1日1回定期的に入力したり、また、特許検索システムでは、数日に1回、ほぼ決まった特許データが追加される。そういった中に、新しい単語も含まれてくるが、その割合もほぼ一定である場合が多い。この実施形態では、このような検索システムの特性を生かして、データの更新を定期的に自動に行うようにした。このため、無駄な処理が省け、計算機資源の有効活用を図ることができる。
【0080】
なお、本実施形態では、テキストデータの総入力量からデータ更新を行うようにしたが、データ更新条件記憶手段201bに、別のデータ更新条件の閾値を記憶できるようにし、例えば、単語分割情報変更点の数が3つ以上になったらデータ更新、など、データの更新を行うようにすることも可能である。他にも更新条件にする閾値は、抽出単語の数、入力テキストの数なども使用できる。
【0081】
また、調査期間を設けてデータ更新条件を調査することをせずに、直接、データ更新条件となる総入力量等をデータ更新条件手段201bに記憶させ、その値に基づいて処理することも、もちろん可能である。
【0082】
また、入力されるテキストデータに対して、設定されている調査期間が適切でない場合、例えば、設定されている調査期間中では、単語抽出、単語分割の調査に必要なテキストデータが入力されないなどの場合に、データ更新部201がエラーを出力し、管理者に警告するように構成することもできる。
【0083】
(第3の実施形態)
第3の実施形態の文書検索装置は、管理者がデータ更新の実行時間を設定することができる。
【0084】
この装置は、図16に示すように、データ更新調査部301を備えており、このデータ更新調査部301は、図17に示すように、索引データの更新の必要性を調査し、単語再分割を実行させるデータ更新調査手段301aと、タイマー機能をもつデータ更新時間記憶手段301bとを具備している。その他のブロック構成は第1の実施形態(図1)と変わりがない。
【0085】
続いて、本実施形態の処理の流れについて述べる。テキストデータの初期登録の方法・追加登録・データ更新・索引データ作成処理・検索処理は、第1の実施形態と同じである。
【0086】
異なる点は、入力手段101から、データ更新を実行する時間を入力し、タイマー機能を持つデータ更新時間記憶手段301bに記憶させ、その時間にデータ更新を行う点である。データ更新時間記憶手段301bは、入力されたデータ更新時間になるとデータ更新調査手段301aに知らせる。これを受けて、データ更新調査手段301aは、データ単語分割部103に単語分割情報の変更調査を指示する。単語分割部103は、第1の実施形態と同じように、単語抽出・単語分割を行い、それに応じて索引データの追加、または全データ更新を実行させる。なお、データ更新時間記憶手段301bに記憶させるデータ更新時間は、何日何時何分といった時間でも、何週間過ぎたら、といった期間でも、何日毎などでもよい。
【0087】
なお、本実施形態の装置では、第2の実施形態のように、データ更新するべきテキストデータ総入力量がどの位の期間で入力されるかを調べて、その期間をデータ更新期間記憶手段301bに記憶させ、その時間でデータ更新が行われるように設定することも可能である。
【0088】
このように、タイマー機能をもつデータ更新時間記憶手段301bを備えることで、管理者がデータの更新時間を決定し、かつ自動でデータ更新を行うことが可能になる。
【0089】
(第4の実施形態)
第4の実施形態の文書検索装置は、装置へのアクセスが少ない時間にデータ更新を行うことができる。
【0090】
この装置は、図18に示すように、データ更新調査部401を備えており、このデータ更新調査部401は、図19に示すように、データ更新調査手段401aと、装置へのアクセスを監視するアクセス監視手段401bとを具備している。その他のブロック構成は第1の実施形態(図1)と変わりがない。
【0091】
図20は、この装置の処理の流れを示している。テキストデータの初期登録・索引データ作成処理・検索処理については、第1の実施形態と同じである。異なる点は、データ更新が必要になった時に、すぐにデータ更新を行わずに、計算機の負荷が下がったときを見計らって行う点である。アクセス監視手段401bは、装置起動時間中の検索処理などによるCPU稼動状況やアクセス数等を監視している。
【0092】
ステップ60:データ更新調査手段401aは、入力手段101からテキストデータが入力されると、
ステップ61:アクセス監視手段401bにデータ更新待ちであることを知らせる。ステップ62:アクセス監視手段401bは、CPU稼動状況や、装置へのアクセス数を監視し、
ステップ63:データ更新に最適な時が来ると、
ステップ64:データ更新調査手段401aに知らせる。
【0093】
ステップ65:これを受けて、データ更新調査手段401aは、入力されたテキストデータから単語抽出・単語分割・索引データ作成処理のデータ更新の処理を実行する。
【0094】
本実施形態によれば、文書検索装置が稼動している計算機の負荷が少ない時間にデータの更新を行うことができる。そのため、利用者が文書検索を行っているときにはデータ更新は行われず、利用者にとって文書検索がやり易い。
【0095】
なお、以前のデータ更新の際のテキストデータの入力量とデータ更新処理時間とを記録しておき、この記録を基に、データ更新が必要になった場合に、その入力量から処理時間を予測し、また、装置起動中のCPU稼動状況やアクセス数等も監視して、装置へのアクセス記録を記憶しておき、予測した処理時間のデータ更新を行うのに最適な時を決定するようにしても良い。こうすることにより、CPUの性能やメモリ等の処理環境が異なる計算機でも、最適なデータ更新を行うことが可能になる。
【0096】
もちろん、第2の実施形態の装置に本実施形態を適用することもできる。この場合、データ更新しなくてはならない総入力量になったときに、装置へのアクセス等が少ない時間を見計らって、データ更新が行われる。
【0097】
(第5の実施形態)
第5の実施形態の文書検索装置は、データの更新を行った際にデータの更新を連絡する連絡手段を有している。
【0098】
この装置は、図21に示すように、データ更新を連絡するデータ更新連絡手段501を備えている。その他のブロック構成は第1の実施形態(図1)と変わりがない。
【0099】
本実施形態の処理の流れについて図22を用いて説明する。テキストデータの初期登録・追加登録・データ更新・索引データ作成処理・検索処理については、第1の実施形態と同じである。
【0100】
ステップ70:単語分割情報が変更され、
ステップ71:索引データの更新が終了すると、
ステップ72:データ更新連絡手段501が、データの更新終了を出力手段108に出力する。
【0101】
これにより、管理者は常にデータ更新状況を把握することができる。
【0102】
なお、本実施形態では、更新終了を連絡することとしたが、更新の必要を知らせ、更新の実行を確認する確認手段を設けると管理者は常に、データ更新の必要性を確認してデータの更新状況を把握することができる。
【0103】
(第6の実施形態)
第6の実施形態の文書検索装置は、索引データの更新時に必要な索引データだけを更新することができる。
【0104】
この装置は、図23に示すように、索引データの更新時に必要な索引だけを更新するデータ更新調査部601を備えている。このデータ更新調査部601は、図24に示すように、データ更新を調査するデータ更新調査手段601aと、実際に索引データの更新を行うデータ更新手段602bとを具備している。その他のブロック構成は第1の実施形態(図1)と変わりがない。
【0105】
以下、この装置の処理の流れを図25を用いて説明する。テキストデータの初期登録の処理は第1の実施形態と同じである。続いて、データ更新の処理について説明する。
【0106】
ステップ80:データ更新調査手段601aは、テキストデータが追加入力されると、単語抽出手段103aに、そのテキストデータからの単語抽出処理を実行させ、新たな抽出単語があった場合には、単語分割手段103cに、全てのテキストデータの単語分割処理を実行させる。全てのテキストデータの単語再分割処理が終了すると、
ステップ81:得られた単語分割情報をすでに記憶されている単語分割情報と比較し、
ステップ82:単語分割情報に変更箇所がある場合には、
ステップ83:その単語分割情報の中から、変更箇所を含む単語始端位置と単語終端位置との組と、そのレコード番号とを抽出し、データ更新手段601bに渡す。ステップ84:データ更新手段601bは、得られたレコード番号から、テキストデータ記憶部102aに格納されている当該テキストを抜き出し、
ステップ85:変更された単語始端位置と単語終端位置との組に基づいて、このテキストの中から、単語分割が変更になった文字列部分を抜き出す。
【0107】
ステップ86:次に、抜き出した文字列部分からn文字連鎖を作成し、
ステップ87:索引データ中の2文字連鎖と比較し、同じn文字連鎖を持つ索引データを探し出す。
【0108】
ステップ88:探し出した索引データに、単語始端フラグ、単語終端フラグを立てて(値を1にする)更新し、
ステップ89:また、追加データ分の索引データを作成し、記憶する。
【0109】
例を図26で示す。「そのフロンガスは…」という文字列で始まるテキストデータがあり、最初に「[フロンガス]」と単語分割され、索引データとして既に登録されているものがある。新しい単語が抽出され、再び単語分割を実行すると「[フロン][ガス]」と分割されたとする。この変更は、単語分割情報上で見ると、最初の文字列の単語分割において、3文字目から7文字目までが単語であることを示す(3,7)の組の変更に該当し、これが単語の再分割で(3,5)(6,7)となる。このことから、更新が必要な索引データは5番目と6番目の文字が含まれるものだと分かる。
【0110】
そこで、索引データ記憶手段105bから、同じレコード番号で、文字番号が5のものを含む索引データの単語終端フラグ(1番目の文字単語終端フラグ及び2番目の文字単語終端フラグ)を1に、文字番号が6のものを含む索引データの単語始端フラグ(1番目の文字単語始端フラグ)を1にする。
【0111】
ここでは、便宜的に、索引データを出現順に並べて書いてあるが、実際には第1の実施形態でも説明したとおり、索引データは、先頭文字をキーとしてまとめられている。
【0112】
また、本実施形態では、索引データの出現文字位置情報は、出現順としたが、各文字の出現回数でもよい。その場合は、単語分割情報変更点の情報からテキストデータ中の変更文字列を取り出し、その文字列に使われている文字は、そのテキストデータ中に何番目に出現したか調べて、索引データ更新する。
【0113】
以下、検索の処理は、第1の実施形態と同様である。本実施形態によれば、データの更新時間を短くし、文書検索装置を実現する計算機の負荷を少なくでき、これに伴ない利用者にとって使いやすい文書検索を行うことができる。
【0114】
(第7の実施形態)
第7の実施形態の文書検索装置は、索引データの更新により、以前に検索した検索結果が違って来た場合に、その旨を提示する。
【0115】
この装置は、図27に示すように、検索履歴を記録する検索履歴記録手段701と、検索履歴から検索条件文字列を得て、実際に索引データを検索し、検索結果の違いを調べる検索結果変更調査手段702とを備えている。その他のブロック構成は第1の実施形態(図1)と変わりがない。
【0116】
本実施形態について、処理の流れを図28を用いて説明する。テキストデータの初期登録・追加登録・データ更新処理については、第1の実施形態と同じである。
【0117】
異なる点は、検索が行われる際に入力された検索条件文字列を含む検索履歴を記憶しておき、この検索条件文字列で更新された索引データを実際に検索し、検索結果の違いを明示するところである。検索処理について以下説明する。
【0118】
ステップ90:まず、入力手段101から、登録しておきたい検索条件文字列を入力し、
ステップ91:検索履歴記憶手段701に記憶させておく。
【0119】
ステップ92:検索結果変更調査手段702は、入力された検索条件文字列で索引データの照合(検索処理)を行い、検索結果として該当レコード数と、レコード番号とを取得し、
ステップ93:この検索結果を前記検索条件文字列と対にして検索履歴記憶手段701に記憶させておく。
【0120】
ここでの検索の処理は、第1の実施形態と同じである。次に、
ステップ94:索引データの更新が行われると、
ステップ95:検索結果変更調査手段702は、検索履歴記憶手段701に記憶されている検索条件文字列と検索結果とを取得し、
ステップ96:この検索条件文字列で索引データの照合(検索処理)を行い、検索結果として該当レコード数と、レコード番号とを取得し、
ステップ97:先の検索結果と新たに得られた検索結果とを比較する。
【0121】
ステップ98:それらが異なっているときは、
ステップ99:新たな検索結果を検索履歴記憶手段701で記憶し、
ステップ100:出力手段108に検索結果の違いを出力する。
【0122】
また、ステップ98において、検索結果の変更がない場合は、
ステップ101:出力手段108に検索結果の変更なしを出力する。
【0123】
具体例を図29に示す。検索履歴記憶手段701に、検索条件「人参and 薬効」と記憶され、検索結果が記憶されている。次にテキストデータが追加登録された際に、「高麗」という単語が新たに出現し、「高麗人参」も「[高麗][人参]」と分割される。そうした場合、検索履歴記憶手段701に記憶されている検索結果と異なり、新たに検索ヒットするテキストが出現する。その結果を、出力手段108に出力する。
【0124】
本実施形態によれば、単語分割の変更による索引データの更新が発生し、以前に検索した検索結果が異なる状況が発生しても、それを管理者、または利用者に明示することができるので、常に最新の検索結果を得ることができる。
【0125】
なお、本実施形態では、索引データの更新の際に、以前に検索した検索結果との違いを明示するようにしたが、単なるデータの追加による検索結果の変更も明示することが可能である。また、検索結果の変更がない場合は明示しないことも、もちろん可能である。
【0126】
【発明の効果】
以上の説明から明らかなように、本発明の文書検索装置は、検索対象のテキストデータを単語に分割して索引データを作成し、それを用いて検索を実施するものにおいて、索引データの更新を自動的に行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における文書検索装置の構成を示すブロック図、
【図2】本発明の第1の実施形態におけるテキストデータ記憶部102の内部構成を示すブロック図、
【図3】本発明の第1の実施形態における単語分割部103の内部構成を示すブロック図、
【図4】本発明の第1の実施形態における索引データ記憶部105の内部構成を示すブロック図、
【図5】本発明の第1の実施形態における単語分割の動作を示すフローチャート、
【図6】本発明の第1の実施形態における単語分割の例を示す図、
【図7】本発明の第1の実施形態における単語分割情報の格納方法を示す概念図、
【図8】本発明の第1の実施形態における索引データ作成処理の例を示す図、
【図9】本発明の第1の実施形態におけるデータ更新の処理を含む単語分割の動作を示すフローチャート、
【図10】本発明の第1の実施形態におけるデータ更新処理を示すフローチャート、
【図11】本発明の第1の実施形態における検索処理を示すフローチャート、
【図12】本発明の第2の実施形態における文書検索装置の構成を示すブロック図、
【図13】本発明の第2の実施形態におけるデータ更新調査部201の内部構成を示すブロック図、
【図14】本発明の第2の実施形態における単語分割の動作を示すフローチャート、
【図15】本発明の第2の実施形態における単語分割の例を示す図、
【図16】本発明の第3の実施形態における文書検索装置の構成を示すブロック図、
【図17】本発明の第3の実施形態におけるデータ更新調査部301の内部構成を示すブロック図、
【図18】本発明の第4の実施形態における文書検索装置の構成を示すブロック図、
【図19】本発明の第4の実施形態におけるデータ更新調査部401の内部構成を示すブロック図、
【図20】本発明の第4の実施形態におけるデータ更新の動作を示すフローチャート、
【図21】本発明の第5の実施形態における文書検索装置の構成を示すブロック図、
【図22】本発明の第5の実施形態におけるデータ更新連絡の動作を示すフローチャート、
【図23】本発明の第6の実施形態における文書検索装置の構成を示すブロック図、
【図24】本発明の第6の実施形態におけるデータ更新調査部601の内部構成を示すブロック図、
【図25】本発明の第6の実施形態におけるデータ更新の動作を示すフローチャート、
【図26】本発明の第6の実施形態におけるデータ更新の動作例を示すフローチャート、
【図27】本発明の第7の実施形態における文書検索装置の構成を示すブロック図、
【図28】本発明の第7の実施形態におけるデータ更新と検索の処理を示すフローチャート、
【図29】本発明の第7の実施形態におけるデータ更新と検索の処理例を示すフローチャートである。
【符号の説明】
101 入力手段
102 テキストデータ記憶部
102a テキストデータ記憶手段
102b テキストデータ更新記録記憶手段
103 単語分割部
103a 単語抽出手段
103b 単語記憶手段
103c 単語分割手段
103d 単語処理用知識記憶手段
104 単語分割情報記憶手段
105 索引データ作成部
105a 索引データ作成手段
105b 索引データ記憶手段
106 データ更新調査手段
107 検索手段
108 出力手段
201 データ更新調査部
201a データ更新調査手段
201b 調査期間記憶手段
201c 結果記録手段
201d データ更新条件記憶手段
301 データ更新調査部
301a データ更新調査手段
301b データ更新時間記憶手段
401 データ更新調査部
401a データ更新調査手段
401b アクセス監視手段
501 データ更新連絡手段
601 データ更新調査部
601a データ更新調査手段
601b データ更新手段
701 検索履歴記録手段
702 検索結果変更調査手段

Claims (8)

  1. 検索対象のテキストデータを単語に分割し、単語の始端及び終端の情報を含む索引データを作成して、テキストデータの全文検索を行う文書検索装置において、
    テキストデータを記憶するテキストデータ記憶手段と、
    自然言語における特有のパターン等の知識を利用して前記テキストデータから単語を抽出し、記憶する単語記憶手段と、
    前記単語記憶手段に記憶された抽出単語を利用して前記テキストデータを単語に分割する単語分割手段と、
    前記テキストデータを単語に分割した単語分割情報を記憶する単語分割情報記憶手段と、
    前記単語分割情報とテキストデータとから前記索引データを作成して記憶する索引データ作成手段と、
    前記索引データの更新を行うための更新条件を記憶するデータ更新条件記憶手段と、
    検索対象に追加するテキストデータが入力されたとき、前記データ更新条件記憶手段に記憶された更新条件に当てはまる場合は、前記単語記憶手段に前記テキストデータからの単語の抽出を行わせ、前記単語記憶手段によって抽出、記憶された単語が既存の抽出単語に比べて新規であるとき、前記単語分割手段に、前記単語記憶手段に記憶された全ての抽出単語を使って前記テキストデータ記憶手段に記憶されているテキストデータの再分割を行わせて、前記単語分割情報が更新されたか否かを調べ、前記単語分割情報が更新された場合に、前記索引データ作成手段に索引データの更新を行わせ、一方、前記更新条件に当てはまらない場合は、前記索引データ作成手段に、追加された前記テキストデータに関する索引データの作成だけを行わせるデータ更新調査手段と
    を備えることを特徴とする文書検索装置。
  2. 前記更新条件が、テキストデータの総入力量によって規定されていることを特徴とする請求項に記載の文書検索装置。
  3. 前記更新条件が、前記索引データの更新間隔を示す時間によって規定されていることを特徴とする請求項に記載の文書検索装置。
  4. 前記データ更新調査手段は、所定期間に渡って、検索対象に追加するテキストデータが入力したときの前記単語分割情報の更新状況を調査し、前記調査の結果に基づいて、前記データ更新条件記憶手段が記憶する前記更新条件を自動設定することを特徴とする請求項からのいずれかに記載の文書検索装置。
  5. 前記調査で、テキストデータの総入力量と前記単語分割情報の更新箇所数との関係を調べ、テキストデータの総入力量に基づいて前記更新条件を規定することを特徴とする請求項に記載の文書検索装置。
  6. 前記調査で、前記単語分割情報の更新箇所数が所定数に達するテキストデータの総入力量と、そのテキストデータが入力する期間との関係を調べ、その期間を指定する時間によって前記更新条件を設定することを特徴とする請求項に記載の文書検索装置。
  7. 前記データ更新調査手段は、ユーザによって設定された前記調査の調査期間を記憶する調査期間記憶手段を具備し、前記調査期間の間、前記調査を行うことを特徴とする請求項からのいずれかに記載の文書検索装置。
  8. 前記データ更新調査手段は、前記調査期間記憶手段に記憶されている前記調査期間が適切でない場合に、警告を出力することを特徴とする請求項に記載の文書検索装置。
JP2000195076A 2000-06-28 2000-06-28 文書検索装置 Expired - Fee Related JP3627850B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000195076A JP3627850B2 (ja) 2000-06-28 2000-06-28 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000195076A JP3627850B2 (ja) 2000-06-28 2000-06-28 文書検索装置

Publications (2)

Publication Number Publication Date
JP2002015004A JP2002015004A (ja) 2002-01-18
JP3627850B2 true JP3627850B2 (ja) 2005-03-09

Family

ID=18693804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000195076A Expired - Fee Related JP3627850B2 (ja) 2000-06-28 2000-06-28 文書検索装置

Country Status (1)

Country Link
JP (1) JP3627850B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5391583B2 (ja) * 2008-05-29 2014-01-15 富士通株式会社 検索装置、生成装置、プログラム、検索方法および生成方法
JP5145202B2 (ja) * 2008-12-04 2013-02-13 日本電信電話株式会社 文書検索装置および文書検索プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204437A (ja) * 1996-01-26 1997-08-05 Fuji Xerox Co Ltd 文書検索装置

Also Published As

Publication number Publication date
JP2002015004A (ja) 2002-01-18

Similar Documents

Publication Publication Date Title
US6785677B1 (en) Method for execution of query to search strings of characters that match pattern with a target string utilizing bit vector
US8205155B2 (en) Text management software
JP5038939B2 (ja) 情報検索システム、方法及びプログラム
US20070050709A1 (en) Character input aiding method and information processing apparatus
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP4237813B2 (ja) 構造化文書管理システム
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP3627850B2 (ja) 文書検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH0869476A (ja) 検索システム
Howard et al. Phonetic spelling algorithm implementations for R
CN115098365A (zh) Sql代码的调试方法、装置、电子设备及可读存储介质
EP1808781A2 (en) Evaluation of name prefix and suffix during a search
JP3983000B2 (ja) 複合語分割装置、及び日本語辞書作成装置
JP3396734B2 (ja) コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
JP4734400B2 (ja) 文書検索装置およびプログラム
JP2008026964A (ja) 検索処理装置及びプログラム
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JPH06325091A (ja) 類似度評価型データベース検索装置
US20120144294A1 (en) Assisting document creation
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JP4059501B2 (ja) 自然語辞書更新装置
JP3591109B2 (ja) キーワード設定装置
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
EP1072986A2 (en) System and method for extracting data from semi-structured text

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees