JP3022539B1 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP3022539B1
JP3022539B1 JP11001921A JP192199A JP3022539B1 JP 3022539 B1 JP3022539 B1 JP 3022539B1 JP 11001921 A JP11001921 A JP 11001921A JP 192199 A JP192199 A JP 192199A JP 3022539 B1 JP3022539 B1 JP 3022539B1
Authority
JP
Japan
Prior art keywords
word
document
words
search
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11001921A
Other languages
English (en)
Other versions
JP2000200287A (ja
Inventor
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP11001921A priority Critical patent/JP3022539B1/ja
Priority to US09/456,388 priority patent/US6470334B1/en
Application granted granted Critical
Publication of JP3022539B1 publication Critical patent/JP3022539B1/ja
Publication of JP2000200287A publication Critical patent/JP2000200287A/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【要約】 【課題】 欧米語に限らずたとえば日本語のように単語
の区切りが明確でない文書に対しても、比較的小さな容
量のインデックスを用いて文書の全文検索を実行するこ
とができる文書検索装置を提供する。 【解決手段】 インデックス1に文書に含まれている全
ての単語について重複を省き、これら単語とともに文書
中で当該単語に隣接している単語に関する情報を付加し
て格納しておき、検索時には、複数の単語とこれら単語
の並びとを含む検索条件に基づいて、検索手段4、5
が、インデックス1に格納された複数の単語と検索条件
との合致を判定して、文書が検索条件に合致するか否か
を判定する。また、インデックス1から単語列を復元し
て、該当する文書を復元出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の単語を検索
者が指定した順序で含んでいる文書を、少ない容量のイ
ンデックスを用いて高速に検索することができる文書検
索装置に関する。
【0002】
【従来の技術】大量の文書から必要な文書を検索する方
式の一つとして、文書の全文に含まれている単語をあら
かじめインデックスに登録しておき、そのインデックス
を用いて高速に検索する方式が知られている。この検索
方式の実現形態の一つは、単語から文書を求めるもので
ある。すなわち、文書の全文の他にインデックスを用意
しておき、そのインデックスに文書中に現れる全ての単
語と各単語が出現している文書へのポインタをあらかじ
め登録しておく。そして、検索時には、検索条件として
単語を受け取り、その単語に対応する文書へのポインタ
をインデックスから求めて、該当する文書の全文を出力
する。
【0003】しかしながら、この方式では、検索条件と
して指定した単語が全文に含まれていさえすればその文
書は検索されてしまうため、検索結果に検索者が意図し
ない文書が多く含まれてしまうという問題がある。ま
た、検索結果の数を絞るために、検索条件として複数の
単語が同時に現われる文書を求める場合でも、検索語同
士の関係までは指定できないために、前述の問題は依然
として残ってしまう。
【0004】特開平8─249346号公報には、キー
ワードの並び方を示す隣接インデックスを用いる文書検
索装置が開示されている。この文書検索装置によれば、
検索条件として入力された2つのキーワード同士の関係
を考慮した検索を行うことができる。ここで、インデッ
クスにあらかじめ登録しておく単語を登録対象の文書中
から取り出すために、一般に、自然言語処理の技術領域
で発展してきた形態素解析が利用されるが、現在の形態
素解析技術を用いた場合、常に正確かつ一意に文書が単
語列に分割されるとは限らない。たとえば、「披露宴会
場外」という文書に形態素解析を施すと、「披露│宴│
会場│外」、「披露宴│会場│外」、「披露│宴会│場
外」、「披露│宴会場│外」などの結果が得られる。な
お、「│」は単語の区切りを表す。このように形態素解
析を行うと、同一箇所の記述に対して異なる位置で単語
が区切られることがある。しかしながら、上記の文書検
索装置で用いるインデックスにおいては、隣接する単語
は1つに限られているため、形態素解析のそれぞれの結
果に対応した構造のインデックスを用意しなければなら
ず、インデックスの容量が膨大なものとなってしまう問
題があった。
【0005】また、特開平8─249354号公報に
は、文書中における単語の出現位置をインデックスに格
納する文書検索装置が開示されている。この文書検索装
置によれば、形態素解析によって、複数の異なる単語区
切りが得られたり、更には同一文字列に対して異なる品
詞が推定された場合であっても、得られた単語を1つの
インデックスにまとめて登録することができる。しかし
ながら、この文書検索装置にあっても、インデックスに
登録する単語の数が膨大となって、インデックスの容量
が無視できないほど大きいものとなってしまう問題があ
った。上記のような事情は言語の種類に関わりなく言え
ることであるが、特に、欧米語のように単語の区切りが
明確でない日本語文書において顕著である。
【0006】
【発明が解決しようとする課題】上記のように、従来の
インデックスを利用して全文検索を行う文書検索装置に
あっては、インデックスが膨大なものとなって大きな記
憶容量を必要とするばかりか、インデックス検索にも長
時間を要して総じて検索速度が低下してしまう課題があ
った。特に、この事情は日本語のように単語の区切りが
明確でない文書に対しては顕著であり、欧米語の場合よ
りもインデックスに登録する単語の数は増えてしまう。
また、単語の区切りの問題を回避するために、例えば、
単語ではなく文字を単位としてインデックスを構成しよ
うとした場合には、登録する単位が膨大になって必要な
インデックスの容量はさらに大きくなってしまう。
【0007】本発明は上記従来の事情に鑑みなされたも
ので、欧米語に限らずたとえば日本語のように単語の区
切りが明確でない文書に対しても、比較的小さな容量の
インデックスを用いて文書の全文検索を実行することが
できる文書検索装置を提供することを目的とする。更
に、本発明は、文書の全文を登録データとして持たずと
も、インデックスのみを用いて単語のつながりを考慮し
た検索を行うことができ、更には、検索結果の文書全文
を復元して出力できる文書検索装置を提供することを目
的とする。更に、本発明は、インデックスに単語の品詞
情報も少ない容量で格納し、品詞情報の照合を利用した
検索を高速に行うことができる文書検索装置を提供する
ことを目的とする。すなわち、本発明は、文書を形態素
解析した結果をそのままの形で且つ少ない容量でインデ
ックスに格納しておき、このインデックスを利用した検
索を高速に行うことができる文書検索装置を提供するこ
とを目的とする。
【0008】
【課題を解決するための手段】本発明の文書検索装置で
は、単語格納手段に、文書に含まれている全ての単語に
ついて重複を省き、これら単語とともに当該文書中で当
該単語に隣接している単語に関する情報を付加して格納
しておき、検索時には、複数の単語とこれら単語の並び
とを含む検索条件に基づいて、検索手段が、単語格納手
段に格納された複数の単語と当該検索条件との合致を判
定して、文書が検索条件に合致するか否かを判定する。
すなわち、入力された検索条件に合致する内容の文書が
検索によって得ることができるかが判定される。そし
て、特に、インデックスを構成する単語格納手段は、前
記全ての単語を当該単語格納手段におけるアドレスによ
って同定して格納するとともに、当該単語の直後に前記
隣接している単語を格納し、当該単語に前記単語に関す
る情報として前記隣接している単語に更に隣接している
単語が格納されるアドレスを所定の順序で付加して格納
しており、アドレスの繋がりにより文書中における単語
の並びを表しているとともに、単語の重複が省かれるこ
とにより比較的小さな容量で構成されている。
【0009】なお、本発明の文書検索装置は、種々な態
様で実施することができるが、下記の実施例に示すよう
に、単語格納手段のインデックスをトライ形式のものと
したり、インデックスを複数の文書に含まれている全て
の単語について共通して構成したり、形式が標準形と表
層形とで異なる2つの同義な単語をインデックスにアド
レスによって繋げて格納したり、単語をその品詞情報を
タグ付けしてインデックスに格納して、文書検索手段が
単語の品詞情報を含む検索条件に基づいて検索条件との
合致を判定するようにすることもできる。
【0010】また、本発明の文書検索装置では、文書出
力手段が、文書検索手段により合致が判定された複数の
単語をインデックスにおけるアドレスを辿った並びで出
力することにより、検索条件に合致した文書を復元して
出力する。したがって、インデックスの他に登録された
文書の全文を用意しておかずとも、検索された文書の全
文を復元して出力することができ、文書全文の記憶に要
する容量を削減することができる。
【0011】また、本発明の文書検索装置では、文書索
引手段に文書を特定する情報(ポインタ)と当該文書中
に含まれる単語とをあらかじめ格納しておき、検索時に
は、文書絞込み手段が、複数の単語とこれら単語の並び
とを含む検索条件に基づいて、文書索引手段に格納され
た複数の文書の内で検索条件に含まれる全ての単語を含
む文書を特定する。そして、文書検索手段が、文書絞込
み手段から得られた文書の集合の中から、対応する単語
格納手段を用いて検索条件に含まれる複数の単語とこれ
ら単語の並びとに合致する文書の集合を検索する。した
がって、複数の文書毎或いは複数の文書集合毎にインデ
ックス(単語格納手段)を構成した場合に合っても、検
索条件に基づいて該当する文書の絞込みを行って、この
絞り込まれた文書に対応するインデックスを用いて検索
処理が行われるため、効率的な検索処理が実行される。
【0012】また、本発明は上記のような機能を実現さ
せるプログラムをコンピュータに実行させることにより
実施することができるが、特に、上記のインデックスは
CDROM等の記憶媒体に記憶させておき、コンピュー
タにインストール或いはアクセスさせて、上記の全文検
索を実行させることができる。
【0013】ここで、単語のつながりや文法的な役割な
どを検索時に考慮できると、検索結果をより検索者の意
図に沿ったものとすることが期待できる。このように単
語のつながりを考慮して検索するためには、インデック
スに各単語が出現している文書へのポインタと文書中に
おける各単語の位置とを対で登録しておき、検索時に
は、検索条件として複数の単語とそれらのつながりを受
け取り、その検索条件を満たす文書へのポインタをイン
デックスから求めるようにすることが考えられる。しか
しながら、単純にこのような方法を採用する場合には、
文書全文のデータの他に大きなインデックスが必要とな
ってしまう。なぜなら、単語から文書を求める場合に
は、文書中の異なり単語について一つずつ文書へのポイ
ンタを持たせればよいが、単語から文書と文書中の位置
を求める場合には、文書中に現れる全ての単語の各々に
ついて文書へのポインタと更には文書中の出現位置まで
持たせる必要があるからである。このような点につい
て、本発明では、文書全文のデータを持たずとも該当す
る文書を検索し、更には、当該文書を復元して出力でき
るため、上記のような膨大なポインタによりインデック
スが大容量となってしまうことはない。
【0014】また、日本語のように単語の区切りが明確
でない文書に対しては、単語ではなく文字を単位として
インデックスを構成する方法が考えられる。たとえば、
文字をインデックスに登録して、文字列から文書と文書
中の文字の出現位置を求めるものである。すなわち、文
書の全文の他にインデックスを備え、あらかじめインデ
ックスに文書に現われる全ての文字と各文字が出現して
いる文書へのポインタと文書中における文字の出現位置
を対で登録しておく。そして、検索時には、検索条件と
して文字列を受け取り、文字列を構成する各文字を含
み、且つ、指定の順序で文字が出現する文書へのポイン
タを求める。しかしながら、単純にこのような方法を採
用する場合には、必要なインデックスの容量が巨大にな
ってしまう。なぜなら、文書中の総文字数は、異なり単
語数や総単語数と比較してはるかに多いために、文字の
持つ文書中の位置情報の総量は格段に増えるからであ
る。このような点について、本発明では、単語の単位で
インデックスを構成するため、このようにインデックス
が大容量となってしまうことはない。
【0015】また、形態素解析を利用すると、日本語の
ように単語の区切りが明確でない文書であっても、文書
から単語を取り出すことができ、更には、各単語に品詞
情報を付与することができ、これらを利用すれば、イン
デックスを容易に作成でき、また、インデックスを用い
た検索を迅速に行うことができる。しかしながら、形態
素解析技術を用いた場合、常に正確かつ一意に文書が単
語列に分割されるとは限らず、上記に「披露宴会場外」
という文書で例示したように、同じ記述に対して異なる
位置で単語が区切られることがある。このため、形態素
解析の結果を利用して単純にインデックスを構成する場
合には、同じ記述に対にて異なり単語の数が膨大となっ
て、インデックスの容量が巨大化し、このインデックス
を用いた検索も処理速度が遅いものとなってしまう。
【0016】一方、このように多くに単語をインデック
スに登録していない場合には、検索者が単語を使って検
索を行うときに、検索者の想定する単語と、検索システ
ムのインデックスに登録されている単語とが一致しない
ことが起きてしまう。たとえば、「コーヒー豆を絞り粕
とともに」という内容の文書を検索したいときに、検索
者は「絞り粕」を検索条件の単語として想定しているの
に対し、検索システムは「絞り粕」ではなく、「絞り」
と「粕」をインデックスに登録している場合がある。ま
たその逆に、検索者は「粕」を検索語として指定したの
に対し、検索システムは「絞り粕」しかインデックスに
登録していない場合もある。どちらの場合も検索もれが
発生して、対応する文書を正しく検索することができな
くなってしまう。このような点について、本発明では、
単語の並びを維持しつつ重複した単語を排除して、小容
量にもかかわらず多くの単語を登録してインデックスを
構成するため、インデックスを用いた迅速な検索処理を
実現し、また、もれのない検索者の意図に沿った検索を
実現することができる。
【0017】また、文書に形態素解析を施すことによっ
て、文書を単語に分割できるだけではなく、単語の品詞
を推定することもできる。しかしながら、その推定され
た単語の品詞も、常に正確かつ一意であるとは限らな
い。たとえば「コーヒー豆を絞り粕とともに」という文
書において、「絞り」は名詞「絞り」とも動詞「絞る」
とも推定できる。したがって、上記の文書には直接的に
含まれていない「絞る」を検索者が検索条件の単語とし
た場合であっても、上記文書も検索されることが望まし
い。このような点について、本発明では、単語に対する
品詞情報も含んで比較的小容量なインデックスを構成で
きるため、同じ文字列の単語に対して複数の異なる品詞
情報によっても、検索者の意図に沿った検索を実現する
ことができる。
【0018】
【発明の実施の形態】本発明を、図に示す具体的な実施
例を参照して説明する。なお、以下に示す実施例では、
検索の対象として日本語の文書を扱っているが、本発明
は日本語に限らず、英語、フランス語、中国語、韓国語
などと言った種々な言語の文書に対しても適用すること
ができる。
【0019】また、以下に示す実施例では、プログラム
をコンピュータに実行させることにより文書検索装置を
構成する各機能手段を実現しているが、本発明では、必
要な機能手段を専用装置として構成することもできる。
また、本発明では、コンピュータによる形態素解析結果
を用いてハードディスク等のメモリにインデックス(単
語格納手段)を自動的に構築してもよいが、あらかじめ
構築したインデックスデータをCDROM等の記憶媒体
に格納して、この記憶媒体を他のコンピュータに読み取
らせ、コンピュータにインデックスデータをインストー
ルし或いはアクセスさせて、インデックスを用いた文書
検索装置を構成するようにしてもよい。
【0020】(実施例1)図1には、本発明の実施例1
に係る文書検索装置の構成を示してある。本実施例の文
書検索装置は、主要な構成部として、インデックスを読
み書き自在に格納したメモリから成る単語格納手段1
と、検索者から入力された検索条件に応じてインデック
ス1を用いた文書全文検索を行う文書検索手段2とを備
えている。
【0021】まず、単語格納手段1の構造を説明する。
単語格納手段1は、文書中に出現する全ての単語に対
し、単語とその単語に関する情報を一つのブロックとし
て、全ブロックを各ブロックの単語の昇降順に保持して
いる。各ブロックは、単語格納手段1におけるアドレス
を割り当てられ、したがってあるアドレスから対応する
ブロックと単語を逆引きすることができる。単語に関す
る情報とは、その単語のデータ長、その単語の後ろに隣
接する単語の総数、その単語の後ろに隣接する単語のブ
ロック中の隣接単語アドレス部のアドレスである。そし
て、この隣接単語アドレスは、当該後ろに隣接する単語
の更に後ろに隣接する単語のアドレスを格納しており、
したがって、たとえば、A、B、Cと言う単語の並びが
ある場合、Aのブロックの隣接単語アドレスは、Bのブ
ロックの隣接アドレス格納部を示しているが、Bのブロ
ックの隣接アドレス格納部にはCの単語ブロックの隣接
単語アドレス格納部が示されている。なお、これらの単
語に関する情報は、固定幅のバイナリデータで表現され
ている。
【0022】具体的には、図2には「記念日の記念品」
という文書に対応する単語格納手段1の構造(インデッ
クス構造)の一例を示してある。なお、同図中で、横一
行は一つのブロックを表し、四角はデータ領域を、四角
の左上の数字はその四角領域のアドレスをそれぞれ表
す。ブロックは、単語のデータ長、単語の文字列、隣接
単語の総数、隣接単語のアドレスの順に構成される。こ
こでは、単語一文字および単語文字列以外の各構成要素
は幅1で表現されている。
【0023】すなわち、図2に示すインデックスでは、
アドレス0〜3のブロックは、単語のデータ長が1の単
語「の」であり、この単語「の」に後続して隣接してい
る単語総数は1つで、隣接単語アドレス部にはアドレス
9が格納されている。そして、この隣接単語アドレス9
の位置を含む、アドレス4〜9のブロックは、単語のデ
ータ長が2の単語「記念」であり、この単語「記念」に
後続して隣接している単語総数は13個で、隣接単語ア
ドレス部にはアドレス17が格納されている。そして、
この隣接単語アドレス17の位置を含む、アドレス14
〜17のブロックは、単語のデータ長が1の単語「品」
であり、この単語「品」に後続して隣接している単語総
数は1個で、隣接単語アドレス部にはアドレス18が格
納されている。
【0024】したがって、これら隣接アドレスの繋がり
により、「の」、「記念」、「品」と言う単語ブロック
が辿れ、各単語ブロックの並びにより「の記念品」とい
う文書が表されている。なお、文書の最後となる単語
「品」については、その隣接単語アドレス部にアドレス
18が格納されて、文末であることが示されている。
【0025】文書検索手段2は、入力受付部3と、単語
検索部4と、隣接単語検索部5とを有しており、次ぎの
ような検索処理を行う。入力受付部3が検索者から入力
された検索条件として並びを指定された複数の単語を受
け取ると、まず、単語検索部4が単語格納手段1から検
索条件の先頭の単語を探す。そして、もしその単語が単
語格納手段1に存在する場合には、単語格納手段1に登
録されているその単語に隣接する単語の中から、隣接単
語検索部5が検索条件の次の単語を探す。これを検索条
件の全ての単語について続けていき、検索条件の先頭の
単語までから最後の単語まで順に隣接して単語格納手段
1に存在しているかどうかを判定し、最後にその判定結
果を「該当あり」という表示や、後述するように文書を
復元して表示出力する。
【0026】図2に示したインデックス(単語格納手
段)1に対して、たとえば「の、記念、日」というなら
びの単語が検索条件として与えられた場合を考えると、
まず、単語「の」を単語格納手段1から探し、それが存
在することが分かるので、インデックスからその後ろに
隣接する単語のアドレス9が一つだけ求まる。そして、
アドレス9の単語をインデックス1から逆引きすると、
インデックスの先頭に格納されている単語はデータ長が
1の「の」であり、隣接単語は一つである。次のブロッ
クの先頭アドレスは、このブロックの先頭アドレス0に
データ長の幅1と単語文字列の幅1、隣接単語の総数の
幅1、隣接単語アドレスの占めるデータ幅1×1とを足
し合わせることで4と求まる。
【0027】したがって、単語「の」に対応するこのブ
ロックの取り得るアドレスは0以上4未満であり、アド
レス9の単語ではあり得ない。それでは次の単語「記
念」について同様のことを行うと、この単語は4以上1
0未満のアドレスを占めるので、アドレス9の単語はこ
の単語である。そして「記念」は検索条件の第2番目の
単語であるので、上記と同様な処理を更に動作を続け
る。このアドレス9には17が格納されており、このア
ドレスから逆引きをすると、単語「品」が求まる。しか
しながら、これは検索条件を満たしておらず、また、イ
ンデックス1には、これ以外に「の」を含む箇所がない
ため、インデックスの登録されているこの文書は検索条
件を満たしていないと判定できる。
【0028】次に、単語格納手段(インデックス)1を
構成する手順について説明する。図3には、インデック
ス1を構成するための装置構成を示してある。なお、こ
の装置は上記の文書検索装置と一体に設けてもよいが、
文書検索装置とは別個な装置としてインデックスを構成
するための専用装置とし、構成したインデックスを記憶
媒体に格納し或いは通信回線で送信して、文書検索装置
に提供するようにしてもよい。
【0029】まず、データとして登録する文書が入力さ
れると、形態素解析実行部11が当該文書に形態素解析
処理を施す。次いで、隣接単語抽出部12が、形態素解
析の結果から順に単語を抽出し、すべての形態素解析結
果に対して以下の処理を繰り返し行う。以下、形態素解
析結果から順に抽出した単語を基底単語を呼ぶことにす
る。ある基底単語がメモリから成る隣接単語格納部13
に格納されていない場合、その基底単語を隣接単語格納
部13に格納する。そして、文書中でその基底単語が出
現している箇所に注目し、文書中でその後ろに隣接して
出現している単語を抽出する。以下、基底単語の後ろに
隣接して出現している単語を隣接単語と呼ぶことにす
る。そして、隣接単語格納部13からその隣接単語に対
応する隣接単語数を求める。
【0030】一方、その隣接単語が隣接単語格納部13
に格納されていない場合には、その隣接単語を隣接単語
格納部13に格納する。次いで、求めた隣接単語数とそ
の隣接単語の組を、その基底単語と対応づけて隣接単語
格納部13に格納し、その基底単語の隣接単語数を1増
やす。以下、隣接単語数とその隣接単語の組を隣接単語
情報と呼ぶことにする。このように、隣接単語格納部1
3には、基底単語をキーとして、その隣接単語情報の集
合を値として格納される。単語ブロック作成部14は、
隣接単語格納部13に格納された全基底単語のブロック
を作成し、単語格納手段1に格納する。ただし、各基底
単語ブロックの直後には、その基底単語に対応する隣接
単語ブロックの集合を格納するための領域をあらかじめ
空けておく。
【0031】ここで、単語格納手段1における基底単語
ブロックにおいて、ある基底単語をあらわすブロックの
アドレスは一意に定まる。以下、単語格納手段1におい
て、ある単語を表すブロックのアドレスを単語アドレス
とよぶことにする。また、単語アドレスはある固定長の
大きさで表すことができるので、その大きさを単語アド
レス幅とよぶことにする。隣接単語変換部15は、隣接
単語格納部13に格納された各隣接単語を、その単語ア
ドレスに単語アドレス幅と隣接単語数との積の値を加え
て表現する。この値を隣接単語アドレスと呼ぶことにす
る。そして、単語格納手段1において、その基底単語を
表すノードの後ろにその隣接単語アドレスを格納してい
く。この結果、単語格納手段1には、登録する文書を形
態素解析した結果の各単語が、元の文書中における並び
を表現した状態で且つ重複なく、図2に示す構造で登録
される。
【0032】(実施例2)次に、本発明の実施例2を説
明する。なお、本実施例は、単語格納手段(インデック
ス)1の構造が上記の実施例1と異なるものであるた
め、本実施例2の特徴部分を説明し、実施例1と重複す
る部分については説明を割愛する。まず、単語格納手段
1は、文書中に出現する全ての単語に対し重複なく、単
語をトライ形式にしたがって格納し、各単語の終了ノー
ドの直後にその隣接単語アドレスを保持している。
【0033】たとえば、図4には、「記念日の記念品」
という文書に対応するインデックス1の構造を示してあ
る。なお、図中において、丸(○)は終了状態でないノ
ードを、二重丸(◎)は終了状態のノードを、実線の矢
印は深さ方向へのアークを、点線の矢印は横方向へのア
ークを、アークの左にあるひらがなや漢字はラベルを、
ノードの左上の数字は単語格納手段1におけるノードの
位置(アドレス)を、終了状態のノードの下にある四角
は隣接単語アドレスを格納する領域を、四角の中の数字
は隣接単語アドレスをそれぞれ表している。ただし、隣
接単語アドレス0は後ろに隣接する単語がなく、ここで
文書が終わっていることを表す。また、ここでは、1つ
のアークとノードの組は5の幅であり、単語アドレス幅
は1である。
【0034】また、図5には、「披露宴会場外」という
内容の文書に対応するインデックス1の構造を示してあ
る。図5に示す例では、文書を形態素解析して、4通り
の解析結果「披露│宴│会場│外」、「披露宴│会場│
外」、「披露│宴会│場外」、「披露│宴会場│外」が
得られた場合を想定している。ただし、隣接単語アドレ
スに負の符合がついている場合、その隣接単語は直前の
隣接単語と同じ文書中の箇所に出現していることを意味
し、隣接単語アドレス自体はその絶対値である。たとえ
ば、ある基底単語の直後に隣接単語アドレスが「5、─
11、─17、28、34」と並んで格納されている場
合、それぞれ「5」と「11」と「─17」で表される
隣接単語は同じ文書中の箇所に出現し、それぞれ「1
7」と「28」と「34」で表される隣接単語はいずれ
も異なる文書中の箇所に出現している。
【0035】このようなインデックス1を用いた検索に
おいても、上記した実施例1と同様に、文書検索手段2
はユーザから検索条件を受け取り、インデックス1に登
録されている文書が検索条件に合致するかどうかを判定
する。すなわち、入力受付手段3が、複数の単語(検索
語と言う)の並びを検索条件として受け取ると、単語検
索手段4が、各検索語に対して各々がとり得る単語アド
レスの範囲をインデックス1から求める。なお、ある単
語がとり得る単語アドレスの範囲を単語アドレス域と呼
ぶ。
【0036】次いで、隣接単語検索手段5が、先頭の検
索語の隣接単語アドレスの中から、2番目の検索語の単
語アドレス域の範囲内にある隣接単語アドレスを探索
し、該当する隣接単語アドレスが存在した場合には、そ
の隣接単語アドレスが格納されている位置(合致候補箇
所と言う)にある隣接単語アドレスが、3番目の検索語
の単語アドレス域の範囲内にあるか判定する。この判定
処理の結果が真であった場合には、その隣接単語アドレ
スの指す箇所にある隣接単語アドレスが、4番目の検索
語の単語アドレス域の範囲内にあるか判定する。この処
理を最後の検索語まで繰り返し行い、最終的な判定まで
すべて真であった場合には、合致候補箇所は入力された
検索条件に合致する箇所であると分かるため、検索条件
に合致する文書がインデックス1に登録されていると判
定される。
【0037】たとえば、図4に示すインデックス1に対
して、「記念」「品」と言う単語の並びの検索条件が入
力された場合には、まず、検索語「記念」をインデック
スから探し、アドレス6〜17を占める単語「記念」を
探し出す。そして、この「記念」の隣接アドレスには2
3と29とが格納されており、アドレス23は単語
「日」に繋がり、アドレス29は「品」に繋がっている
が、後者が検索条件中の2番目の検索語「品」に該当す
るため、検索条件「記念」「品」に合致する文書がイン
デックス1に登録されていると判定される。
【0038】このように単語集合をトライ形式でインデ
ックスに格納する方法は、大量の文書を検索するために
広く採用されているが、上記の実施例1における単語格
納手段1のように単語をテーブルとして格納する方法に
比べ、トライ構造は必要な記憶容量が小さく、且つ、検
索が高速に行えるという利点がある。トライ構造の場
合、単語同士で共通している先頭文字列の部分は一つの
データとしてまとまった形で保存されるため、テーブル
で保存する場合よりも必要な記憶容量が節約できる。こ
の効果は一般に、単語数が増加するにしたがってより大
きくなる。そして、検索時には、テーブルの場合、先頭
の単語から目的の単語まで順番に探していく必要がある
ため、検索に要する時間は単語の総数にほぼ比例する
が、トライ構造の場合は単語の先頭文字列の部分が目的
の単語のそれと一致しない単語をスキップして検索を進
めるため、検索に要する時間は格段に短かくなると言う
利点がある。したがって、本実施例は実施例1よりも必
要な記憶容量は少なく、かつ、検索時間も短いという利
点がある。
【0039】(実施例3)次に、本発明の実施例3を説
明する。なお、本実施例は、単語格納手段1に基底単語
の後ろに隣接して出現している単語だけではなく、前に
隣接して出現している単語も格納するところが特徴部分
であり、実施例2と重複する部分については説明を割愛
する。なお、基底単語の前に隣接して出現している単語
を先隣接単語、基底単語の後ろに隣接して出現している
単語を後隣接単語とそれぞれ区別して呼ぶ。
【0040】図6には、「記念日の記念品」という文書
に対応するインデックス1の構造を示してある。ただ
し、隣接単語アドレスが負の場合、それは先隣接単語で
あることを意味し、そのアドレスの絶対値が隣接単語ア
ドレスである。たとえば、単語「の」については、先隣
接単語のアドレス27、後隣接単語のアドレス18が付
加されているため、アドレス27に該当する「日」が前
に隣接し、アドレス18に該当する「記念」が後に隣接
して、「日、の、記念」と言う単語の並びの文書がイン
デックス1に登録されている。
【0041】(実施例4)次に、本発明の実施例4を説
明する。なお、本実施例は、基底単語が標準形と異なる
形の表層形で文書中に現れている場合には、その表層形
を更に単語格納手段1に格納するところが特徴部分であ
り、実施例2と重複する部分については説明を割愛す
る。図7には、「コーヒー豆を絞り粕とともに」という
内容の文書に対応するインデックス1の構造を示してあ
る。ただし、ラベルの{表層}は、基底単語が表層形で
文書中に現れていることを表すタグであり、表層形の単
語の直後にはその標準形の基底単語が格納され、表層形
を持つ標準形の基底単語にはその表層形の単語が格納さ
れている。なお、単語のインデックス登録に際しては、
標準形で単語が格納されている場合には標準形の単語の
直後にその表層形が格納され、また、表層形で単語が格
納されている場合には表層形の直後に標準形が格納され
る。
【0042】このように単語格納手段1を構成すると、
表層形の基底単語でサブトライができる。すなわち、表
層形の基底単語がとり得る単語アドレス域が確定する。
たとえば、図7の例で、「絞り」をキーとしてこの単語
格納手段1を検索すると、標準形の「絞り」が得られる
が、キーワードに表層形のタグを付加して検索すること
で、表層形の「絞り」も得られる。表層形の「絞り」は
その表層形の単語アドレス62をもち、単語アドレス6
2の標準形「絞り」は、表層形「絞り」の単語アドレス
91と隣接単語「粕」の単語アドレス75をもってい
る。したがって、検索条件に含まれる検索語が標準形で
あっても表層形であっても、この構造のインデックスを
用いれば、検索者の意図に沿った検索結果が得られる。
【0043】(実施例5)次に、本発明の実施例5を説
明する。なお、本実施例は、単語格納手段1に基底単語
をその基底単語の品詞情報がタグ付けされた形で格納す
るところが特徴部分であり、実施例2と重複する部分に
ついては説明を割愛する。図8には、「記念日の記念
品」という内容の文書に対応するインデックス1の構造
を示してある。ただし、ラベルの{名詞}や{助詞}
は、基底単語の品詞情報を表すタグである。
【0044】このように単語格納手段1を構成すると、
各品詞ごとにサブトライができる。すなわち、各品詞の
単語がとり得る単語アドレス域が確定する。たとえば、
図8の例で、名詞の単語の単語アドレス域は14から2
7、助詞の単語アドレス域は37から38である。した
がって、品詞情報を検索条件に含ませて隣接単語を検索
する場合には、文書検索手段2が、各隣接単語アドレス
が検索条件に合致する品詞の単語アドレス域内にあるか
どうかを照合すればよいことになる。この処理は、各隣
接単語アドレスをあるアドレス域にあるかどうかを判定
するだけで済むので、文書検索処理を高速に行うことが
できる。なお、本実施例の単語格納手段1は、品詞情報
を格納しているため文書を形態素解析した結果をそのま
まの形で保存することにより構成することができる。ま
た、実施例4のように単語の表層形および標準形をもラ
ベルとして格納するようにすれば、形態素解析によって
得られる表層形および標準形をもそのまま格納すること
ができる。
【0045】(実施例6)次に、本発明の実施例6を説
明する。なお、本実施例は、実施例2に変更を加えたも
のであるため、実施例2と重複する部分については説明
を割愛する。図9には、本実施例に係る文書検索装置を
示してあり、実施例2の構成に加えて、文書出力手段6
が付加されている。文書出力手段6は、インデックス1
中の検索条件に合致する箇所から隣接単語をたどってい
き、各隣接単語アドレスからインデックス1に格納され
ている単語を用いて文字列に復元し、対応する文書を復
元して出力する処理を行う。
【0046】アドレスから文書を復元していく具体的な
手順を、図5に示した「披露宴会場外」という内容の文
書に対応する単語格納手段1に対して、アドレス28の
単語を復元する場合をとりあげて説明する。まず、単語
格納手段1の先頭ノードに注目すると、このノードから
遷移するときに2つのパスがある。一つはラベル「宴」
をたどる深さ方向のパスであり、二つめはラベルなしで
アドレス18のノードに移る横方向のパスである。前者
の遷移先を子ノード、後者の遷移先を直下の弟ノードと
それぞれ呼ぶことにする。先頭ノードの直下の弟ノード
のアドレスは18である。したがって、先頭ノードの子
ノードをたどる単語は0より大きく18未満のアドレス
のノードで終わることが分かる。すなわち、求めたいア
ドレス28の単語は先頭ノードの子ノードをたどらない
ことが分かる。
【0047】次いで、直下の弟ノードに注目する。先程
と同様にして、このノードの直下の弟ノードのアドレス
をみると29である。したがって、アドレス28の単語
は、少なくとも現在のノードの子ノードをたどることが
分かる。そこで、その子ノードに遷移して、遷移すると
きのラベル「会」をメモリに保存しておき、その遷移先
であるアドレス23のノードに注目する。このノードは
弟ノードを持っていないので、今度はその子ノードのア
ドレスをみると28である。これは目的の単語のアドレ
スよりも大きい。したがって、目的の単語はさらに先に
あることが分かる。さらにその子ノードに遷移し、ラベ
ル「場」をさきほどのラベル「会」につづけて保存す
る。
【0048】さて、現在のノードは子ノードも弟ノード
も持っていない。現在のノードは終了状態であり、且
つ、アドレス29はこのノードの直後にあるので、現在
のノードに対応する単語が目的の単語であることが分か
る。そして、いままで保存しておいたラベルの列は
「会、場」であり、現在のノードに対応する単語は「会
場」であることが分かる。以上のようにして、文書出力
手段6により、トライ構造におけるアドレスから単語列
を復元することができる。この復元に要する処理は、ト
ライを検索する場合とほぼ同等な計算コストで行うこと
ができる。したがって、インデックスから各単語につい
て復元していき、最終的に文書を出力する際に要する時
間はさほど大きくはない。更に、上記の各実施例でも同
様であるが、本実施例では文書の本文データを持たずに
インデックス1だけから本文を復元することができる。
したがって、必要な記憶容量は、従来の全文検索に比べ
て格段に少くてすむ。
【0049】ここで、本発明による記憶容量の削減効果
を定量的に説明するために、同一のサンプル文書を対象
に本発明と従来技術とで必要な記憶容量を比較すること
にする。従来技術は、本文の他に一文字単位のインデッ
クスを備えた検索装置である。なお、検索対象の文書
は、無作為に抽出した公開特許公報6件であり、各文書
に対してそれぞれインデックスを作成し、単語アドレス
幅は2バイトとした。図10には本発明の場合を、図1
1には従来技術の場合をそれぞれ示してある。両者を比
較すると、元の文書に対する必要な記憶容量の増分比
は、本発明の場合、平均で0.17であるが、従来技術
の場合、平均で1.14であり、したがって、本発明に
必要な記憶容量の増分は従来技術の6.7分の1であ
り、格段の効果があると言える。
【0050】更に、本発明では、インデックス1の容量
自体も文書容量と比較して同程度と十分小さくなってい
る。たとえば、単語を単位として単語の位置情報を求め
ることができる従来技術を考えることにする。この従来
技術を応用して、本発明のように本文を持たせずにかつ
本文を復元できる構造を想定することはできる。それは
単語の出現位置からインデックスのアドレスを検索でき
るインデックスを別に用意すればよい。たとえば、図1
2および図13は、「披露宴会場外」という内容の文書
に対するこの考えに基づくインデックス1を図示したも
のである。図12は、単語からその出現位置の集合を検
索するためのインデックスであり、図13は、出現位置
からそこに出現している単語アドレスを検索するインデ
ックスである。
【0051】しかしながら、この想定の場合と比較して
も、本発明で必要なインデックスは図13に相当するイ
ンデックスが不要であるため、必要な容量が少なくてす
むと言うことができる。本発明のインデックス容量の内
訳を図14に示す。この内訳から、単語自体を格納する
記憶領域よりも、単語をポイントために必要な記憶容量
の方が大きいことが分かる。本発明は前述したように、
隣接単語の更にその後に隣接している単語のアドレスを
格納して、各単語の並びを表現しているので、単語をポ
イントするために必要な記憶領域を極力削減することが
でき、かなり大きな単語量となる実際の文書を扱うとき
に大きな効果が得られる。
【0052】(実施例7)次に、本発明の実施例7を説
明する。なお、本実施例は、実施例2に変更を加えて、
検索対象の文書集合から、検索者が入力した検索条件を
含む文書を検索するたものであるため、実施例2と重複
する部分については説明を割愛する。図15には、本実
施例に係る文書検索装置を示してあり、文書検索手段2
に加えて、文書索引手段7、文書絞込み手段8、文書内
索引手段10が付加されている。
【0053】文書索引手段7は、単語とそれを含む文書
集合へのポインタを格納しているメモリである。文書絞
込み手段8は、検索条件を入力とし、文書検索手段7を
用いて、検索条件として指定された全ての単語を含む文
書の集合を特定する。文書内索引手段10は、各文書毎
A〜Dに作成されたインデックス1a〜1dの集合であ
り、これら各インデックスは上記実施例のような構造と
なっている。
【0054】すなわち、本実施例では、文書検索手段2
が、検索条件として指定された全ての単語を含む文書の
集合を、文書絞り込み手段8から求める。なお、得られ
た文書の集合は、検索条件を満たす文書を漏れなく含ん
でおり、これら文書を候補文書と呼ぶ。そして、文書検
索手段2が、文書内索引手段10中の候補文書に対応す
るインデックス1a〜1dを用いて、候補文書の内から
検索条件の単語の並びを満たす文書を出力する。したが
って、本実施例によれば、インデックスを用いた検索に
先立って対象文書の絞込みが行われるため、比較的時間
の要するインデックス検索の負担を軽減して、総じて検
索速度を高めることができる。
【0055】
【発明の効果】以上説明したように本発明によると、欧
米語に限らず、たとえば日本語のように単語の区切りが
明確でない文書に対しても、文書の全文を持たずに、比
較的小さな容量に抑えられたインデックスのみを用いて
単語のつながりを考慮した全文検索を行うことができ、
且つ、検索結果の文書全文をも出力することができる。
また、本発明によると、単語の品詞情報や表層形等の形
式を少ない容量でインデックスに格納し、且つ、これら
の情報の照合を高速に行うことができるため、たとえば
本発明によって、文書の形態素解析結果をそのままの形
でかつ少ない容量でインデックスに保存しておき、任意
の単語から高速にアクセスして所期の検索を実行するこ
とができる。
【図面の簡単な説明】
【図1】 本発明の実施例1に係る文書検索装置を示す
構成図である。
【図2】 本発明の実施例1に係るインデックス構成を
示す概念図である。
【図3】 インデックスを作成する装置を示す構成図で
ある。
【図4】 本発明の実施例2に係るインデックス構成の
一例を示す概念図である。
【図5】 本発明の実施例2に係るインデックス構成の
他の一例を示す概念図である。
【図6】 本発明の実施例3に係るインデックス構成を
示す概念図である。
【図7】 本発明の実施例4に係るインデックス構成を
示す概念図である。
【図8】 本発明の実施例5に係るインデックス構成を
示す概念図である。
【図9】 本発明の実施例6に係る文書検索装置を示す
構成図である。
【図10】 本発明の容量比較データを示す図である。
【図11】 従来技術の容量比較データを示す図であ
る。
【図12】 インデックス構成を示す概念図である。
【図13】 インデックス構成を示す概念図である。
【図14】 本発明の容量の内訳データを示す図であ
る。
【図15】 本発明の実施例7に係る文書検索装置を示
す構成図である。
【符号の説明】
1、 、1a〜1d:単語格納手段(インデックス)、
2:文書検索手段、3:入力受付部、 4:単語検索
部、 5:隣接単語検索部、6:文書出力手段、 7:
文書索引手段、 8:文書絞込み手段、10:文書内索
引手段、
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 15/415 (56)参考文献 特開 平8−249354(JP,A) 特開 平8−194718(JP,A) 特開 平9−138809(JP,A) 増市,外3名「形態素解析を用いた全 文検索システムとその応用」情報処理学 会研究報告(94−NL−102−3),V ol.94,No.63,1994(平6−7− 21) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 12/00 520 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書が検索条件に合致するか否かを判定
    する文書検索装置において、 文書に含まれている全ての単語について重複を省き、こ
    れら単語に前記文書中で当該単語に隣接している単語に
    関する情報を付加して格納する単語格納手段と、 複数の単語とこれら単語の並びとを含む検索条件に基づ
    いて、前記単語格納手段に格納された複数の単語と当該
    検索条件との合致を判定する文書検索手段と、を備え、 前記単語格納手段は、前記全ての単語を当該単語格納手
    段におけるアドレスによって同定して格納するととも
    に、当該単語の直後に前記隣接している単語を格納し、
    当該単語に前記単語に関する情報として前記隣接してい
    る単語に更に隣接している単語が格納されるアドレスを
    所定の順序で付加して格納して、アドレスの繋がりによ
    り文書中における単語の並びを表していることを特徴と
    する文書検索装置。
  2. 【請求項2】 請求項1に記載の文書検索装置におい
    て、 前記単語格納手段は、前記全ての単語及び単語に関する
    情報を深さ優先順にノードが記録され、ノードを繋ぐア
    ークに単語を構成する文字のラベルが付されたトライ形
    式のインデックスとして格納することを特徴とする文書
    検索装置。
  3. 【請求項3】 請求項1又は請求項2に記載の文書検索
    装置において、 前記単語格納手段は、複数の文書に含まれている全ての
    単語について、共通して単語及び単語に関する情報を格
    納していることを特徴とする文書検索装置。
  4. 【請求項4】 請求項1乃至請求項3のいずれか1項に
    記載の文書検索装置において、 前記単語格納手段は、形式が標準形と表層形とで異なる
    2つの同義な単語をアドレスによって繋げて格納してい
    ることを特徴とする文書検索装置。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項に
    記載の文書検索装置において、 前記単語格納手段は、単語をその品詞情報をタグ付けし
    て格納し、 前記文書検索手段は、単語の品詞情報を更に含む検索条
    件に基づいて、前記単語格納手段に格納された複数の単
    語と当該検索条件との合致を判定することを特徴とする
    文書検索装置。
  6. 【請求項6】 検索条件に合致した文書を出力する文書
    検索装置において、 文書に含まれている全ての単語について重複を省き、こ
    れら単語をアドレスによって同定して格納するととも
    に、当該単語の直後に前記文書中で隣接している単語を
    格納し、当該単語に前記隣接している単語に更に隣接し
    ている単語が格納されるアドレスを所定の順序で付加し
    て格納して、アドレスの繋がりにより単語を文書中にお
    ける並びを表して格納する単語格納手段と、 複数の単語とこれら単語の並びとを含む検索条件に基づ
    いて、前記単語格納手段に格納された複数の単語と当該
    検索条件との合致を判定する文書検索手段と、 合致した複数の単語をアドレスを辿った並びで出力する
    ことにより文書を復元する文書出力手段と、を備えたこ
    とを特徴とする文書検索装置。
  7. 【請求項7】 文書の集合から検索条件に合致した文書
    の集合を検索する文書検索装置において、 文書を特定する情報と当該文書中に含まれる単語とを格
    納する文書索引手段と、 前記文書索引手段に格納されたそれぞれの文書に対応し
    て、文書に含まれている全ての単語について重複を省
    き、これら単語をアドレスによって同定して格納すると
    ともに、当該単語の直後に前記文書中で隣接している単
    語を格納し、当該単語に前記隣接している単語に更に隣
    接している単語が格納されるアドレスを所定の順序で付
    加して格納して、アドレスの繋がりにより単語を文書中
    における並びを表して格納する単語格納手段と、 複数の単語とこれら単語の並びとを含む検索条件に基づ
    いて、前記文書索引手段に格納された複数の文書の内で
    前記検索条件に含まれる全ての単語を含む文書を特定す
    る文書絞込み手段と、 前記文書絞込み手段から得られた文書の集合の中から、
    対応する前記単語格納手段を用いて前記検索条件に含ま
    れる複数の単語とこれら単語の並びとに合致する文書の
    集合を検索する文書検索手段と、を備えたことを特徴と
    する文書検索装置。
  8. 【請求項8】 文書の全文検索に用いるインデックスを
    コンピュータにより読み取り可能に記憶した記憶媒体で
    あって、 前記インデックスは、文書に含まれている全ての単語に
    ついて重複を省き、これら単語をアドレスによって同定
    して記録するとともに、当該単語の直後に前記文書中で
    隣接している単語を記録し、当該単語に前記隣接してい
    る単語に更に隣接している単語が記録されるアドレスを
    所定の順序で付加して記録して、アドレスの繋がりによ
    り単語を文書中における並びを表して記録することによ
    り構成され、 コンピュータにより構成される文書検索手段が、複数の
    単語とこれら単語の並びとを含む検索条件に基づいて、
    前記インデックスに記録された複数の単語と当該検索条
    件との合致を判定して、対応する文書を出力することを
    特徴とする文書の全文検索に用いるインデックスを記憶
    した記憶媒体。
JP11001921A 1999-01-07 1999-01-07 文書検索装置 Expired - Fee Related JP3022539B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11001921A JP3022539B1 (ja) 1999-01-07 1999-01-07 文書検索装置
US09/456,388 US6470334B1 (en) 1999-01-07 1999-12-08 Document retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11001921A JP3022539B1 (ja) 1999-01-07 1999-01-07 文書検索装置

Publications (2)

Publication Number Publication Date
JP3022539B1 true JP3022539B1 (ja) 2000-03-21
JP2000200287A JP2000200287A (ja) 2000-07-18

Family

ID=11515069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11001921A Expired - Fee Related JP3022539B1 (ja) 1999-01-07 1999-01-07 文書検索装置

Country Status (2)

Country Link
US (1) US6470334B1 (ja)
JP (1) JP3022539B1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US7409381B1 (en) * 1998-07-30 2008-08-05 British Telecommunications Public Limited Company Index to a semi-structured database
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US8161053B1 (en) * 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
WO2005124599A2 (en) * 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
US7970740B1 (en) * 2004-09-23 2011-06-28 Oracle America, Inc. Automated service configuration snapshots and fallback
US9767184B2 (en) * 2006-03-14 2017-09-19 Robert D. Fish Methods and apparatus for facilitating context searching
US8122032B2 (en) * 2007-07-20 2012-02-21 Google Inc. Identifying and linking similar passages in a digital text corpus
JP4734400B2 (ja) * 2008-12-18 2011-07-27 株式会社東芝 文書検索装置およびプログラム
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
GB201421674D0 (en) * 2014-12-05 2015-01-21 Business Partners Ltd Real time document indexing
CN107798004B (zh) * 2016-08-29 2022-09-30 中兴通讯股份有限公司 关键词查找方法、装置及终端

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5940624A (en) * 1991-02-01 1999-08-17 Wang Laboratories, Inc. Text management system
US5268840A (en) * 1992-04-30 1993-12-07 Industrial Technology Research Institute Method and system for morphologizing text
JP3132738B2 (ja) * 1992-12-10 2001-02-05 ゼロックス コーポレーション テキスト検索方法
JP2968151B2 (ja) * 1993-06-17 1999-10-25 シャープ株式会社 機械翻訳装置
JPH08249346A (ja) 1995-03-10 1996-09-27 Toshiba Corp 文書検索装置及び文書生成方法
JP2929963B2 (ja) 1995-03-15 1999-08-03 松下電器産業株式会社 文書検索装置および単語索引作成方法および文書検索方法
EP0744702B1 (en) * 1995-05-22 2002-11-13 Matsushita Electric Industrial Co., Ltd. Information searching apparatus for searching text to retrieve character streams agreeing with a key word
US5745899A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for indexing information of a database
US6275610B1 (en) * 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
増市,外3名「形態素解析を用いた全文検索システムとその応用」情報処理学会研究報告(94−NL−102−3),Vol.94,No.63,1994(平6−7−21)

Also Published As

Publication number Publication date
JP2000200287A (ja) 2000-07-18
US6470334B1 (en) 2002-10-22

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5778400A (en) Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
JP3022539B1 (ja) 文書検索装置
JPH0724055B2 (ja) 単語分割処理方法
CN110377884A (zh) 文档解析方法、装置、计算机设备及存储介质
JP3545824B2 (ja) データ検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JP3594701B2 (ja) キーセンテンス抽出装置
JPWO2009048149A1 (ja) 電子文書の同等判定システムおよび同等判定方法
JPS6033665A (ja) キ−ワ−ド自動抽出方式
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JPH08263521A (ja) 文書登録検索システム
JP3489237B2 (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
JP3427679B2 (ja) 単語検索装置及び単語検索プログラムを記録したコンピュータ読取り可能な記録媒体
JP2002132789A (ja) 文書検索方法
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP3555181B2 (ja) 構造化文書検索方法
JPS63201824A (ja) 検索キ−ワ−ド選択方式
JPH0668159A (ja) 検索装置
JPH0635971A (ja) 文書検索装置
JPH09212523A (ja) 全文検索方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080114

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090114

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees