JP4262529B2

JP4262529B2 - 全文検索装置、方法、プログラム及び記録媒体

Info

Publication number: JP4262529B2
Application number: JP2003168375A
Authority: JP
Inventors: 研策山本; 裕一小島; 裕子井田; 優希子平岡; 泰嗣小川; 雅之亀田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-06-12
Filing date: 2003-06-12
Publication date: 2009-05-13
Anticipated expiration: 2023-06-12
Also published as: JP2005004545A

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の文書データから指定された文字列を含む文書データを検索する全文検索装置、方法、プログラム及び記録媒体に関し、特に、文書管理システム、電子図書館システム、特許公報検索システム、といった大量の文書データを管理する際に極めて好適な全文検索装置、方法、プログラム及び記録媒体に関する。
【０００２】
【従来の技術】
近年の情報通信技術の発達により、大量の電子化文書にアクセスできる環境が整いつつある。このような状況下において、ユーザが所望の文書を精度よく、さらには高速に検索する文書検索装置が提案されている。この文書検索装置には、キーワード検索手法や全文検索手法が用いられている。
【０００３】
全文検索手法は、任意の検索文字列と検索対象の全ての文書との間で照合を行い、検索文字列を含む文書を漏れなく抽出する方法である。これにより、キーワード検索手法のように検索対象となる全ての文書に対してキーワードを予め付与する必要がない。また、ユーザが取得したいキーワードをインターネット上から検索漏れのないように取得することが可能となる。
【０００４】
なお、全文検索において、全文索引を作成するためには、文書データを索引単位に分割する分割処理手段が必要である。分割処理手段としては、Ｎ文字のつながりを単位として分割する方法や、形態素解析を用いて単語単位で分割する方法等がある。
【０００５】
Ｎ文字のつながりを単位として分割する方法は、文書データをＮ文字単位に分割し、各文字列が含まれた文書データの情報と、文字列の位置情報とによるインデックスを検索し、文字列間の位置関係を調べ、該当する文書データを抽出する方法である。
【０００６】
また、形態素解析方法は、日本語を解析するための辞書を使用して、入力された文書データを単語単位に分解し、該分解した単語単位の中から名詞などのキーワードとなる用語を抽出する方法である。
【０００７】
しかしながら、最も中核となる大規模インデックス作成部分の技術である全文検索技術は、様々な意味でのトレードオフが避けられない。
【０００８】
そこで、複数の言語の文を含む文書データに対して、検索の際に用いるインデックスを作成して文書データの検索を行う新規な全文検索装置がある（特許文献１参照）。
【０００９】
この特許文献１は、複数の言語の文を含む文書データを格納し、該格納した文書データと異なる言語の文書データに対応してそれぞれに形態素解析を行う。そして、文書データのキーワードを抽出し、該抽出したキーワードに対応する文書データの識別子と共にインデックスとして登録する。そして、入力された検索条件から単語を切り出し、該切り出した単語とインデックスとのキーワードを照合して、その照合結果により検索条件に適合する文書データを読み出す。これにより、ユーザの所望に応じた多言語文書データの登録処理や検索処理が可能となる。
【００１０】
また、多言語文書データに関する索引を言語ごとに分けて格納することで文書データを管理し、該管理した文書データを用いて文書データの検索処理を行う新規な全文検索装置がある（特許文献２参照）。
【００１１】
この特許文献２は、複数の言語の文字を含む多言語文書データの言語を識別し、該識別した多言語データに関する索引を言語別に作成し、言語ごとに格納する。そして、言語ごとの索引を使用して多言語文書データの検索を行うことで、言語ごとに区別して管理することが可能となる。
【００１２】
また、本出願人による従来技術として、複数の文書データをまとめて１つの文書データとして管理、または、検索できる全文検索装置がある（特許文献３参照）。
【００１３】
この特許文献３は、部分文書に分割された文書データを１つの文書データとして登録し、該登録された複数の文書データの中から指定された文字列を含む部分文書データを検索することで、部分文書単位での取り出しや、検索語の出現箇所表示を行うことが可能となる。
【００１４】
【特許文献１】
特開平９−５０４４２号公報
【特許文献２】
特開２００１−６７３６８号公報
【特許文献３】
特開２００１−２４９９４３号公報
【００１５】
【発明が解決しようとする課題】
しかしながら、特許文献１は、１つの文書データが複数の言語から構成されているため制限が少ないが、分割処理手段（多言語キーワード抽出部）において、１つの文書データに対して複数の形態素解析処理を行うため、処理速度は低下すると考えられる。また、キーワードしか抽出していないため、任意の文字列での全文検索が不可能である。
【００１６】
また、特許文献２では、１つの文書データが複数の言語からなっているため、制限が少ないが、言語別に文書データ及び索引を格納するので、登録処理や検索処理の処理速度が低下すると考えられる。
【００１７】
また、特許文献３では、複数の文書データをまとめて１つの文書データとして管理、検索できるが、言語情報に関する記述は何ら言及されていない。
【００１８】
また、Ｎ文字のつながりを単位とする分割処理手段では、言語情報への依存性はなくなるが、分割数が増え索引単位が多くなるので、全文索引記憶部に要する領域が大きくなる、また、登録処理、検索処理、で処理すべきデータ量が多くなるため処理速度が低下する等の問題点が考えられる。
【００１９】
一方、形態素解析を用いる分割処理手段は、単語単位に分割するので索引単位の数は少なくなるが、その実装が言語情報に依存するという問題がある。例えば、欧米語のようにワード間に空白がある言語の場合、分割処理手段はスペースなどの文字の切れ目を検出し、文字の連続部分を単語とすればよく実装が簡単である。しかし、日本語のように文書中に空白などの区切りのない言語の場合、ワード自体の識別が困難である。従って、分割処理手段は、構文解析技法を用いて単語を検出する必要があり実装は難しいものになる。これは、従来の全文検索装置では、全文検索の対象とする言語を１つとし、その言語に最適な１つの分割処理手段しか有していないことになる。また、日本語の表記の多様性（複合語、カタカナ異表記）から、単語のインデックスを作成しても検索漏れが生じていた。
【００２０】
本発明は上記事情に鑑みてなされたものであり、複数の言語の文書データに対応した全文検索装置、方法、プログラム及び記録媒体を提供することを目的とする。
【００２１】
【課題を解決するための手段】
かかる目的を達成するために本発明は以下のような特徴を有する。
＜全文検索装置＞
本発明にかかる全文検索装置は、
それぞれ異なる言語で記述された複数の文書データから、指定された文字列を含む文書データを検索する全文検索装置であって、
文書データと該文書データの言語情報とを入力する入力手段と、
文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、
言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、
前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、
検索の際に用いる索引情報を記憶する全文索引記憶手段と、
各種情報を登録する登録処理手段と、
前記全文索引記憶手段に記憶された索引情報を検索する検索処理手段と、を有し、
前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有し、
前記登録処理手段は、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する手段と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する手段と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する手段と、を有し、
前記検索処理手段は、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索することを特徴とする。
【００２２】
＜方法＞
また、本発明にかかる方法は、
文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置で行う方法であって、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する工程と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する工程と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する工程と、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する工程と、を前記全文検索装置が行うことを特徴とする。
【００２３】
＜プログラム＞
また、本発明にかかるプログラムは、
文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置において実行されるプログラムであって、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する処理と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する処理と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する処理と、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する処理と、をコンピュータに実行させることを特徴とする。
【００２４】
＜記録媒体＞
また、本発明にかかる記録媒体は、
上記記載のプログラムをコンピュータ読み取り可能な記録媒体に記録したことを特徴とする。
【００２８】
【発明の実施の形態】
以下、添付図面を参照しながら本発明にかかる実施の形態について詳細に説明する。
【００２９】
まず、図１を参照しながら、本発明にかかる全文検索装置の構成について説明する。
【００３０】
本発明にかかる全文検索装置は、入力手段１と、出力手段２と、文書データ記憶部３と、言語別件数記憶部４と、全文索引記憶部５と、複数の分割処理手段６と、登録処理手段７と、検索処理手段８と、を有して構成されている。以下、全文検索装置を構成する各部の機能について説明する。
【００３１】
入力手段１は、文書データとその文書データの言語情報、または、検索条件を入力する処理部である。
【００３２】
出力手段２は、検索処理手段８により検索された検索結果を出力する処理部である。
【００３３】
文書データ記憶部３は、文書データとその文書データの言語情報とを記憶する記憶部である。
【００３４】
言語別件数記憶部４は、言語情報ごとの文書データの件数を記憶する記憶部である。
【００３５】
全文索引記憶部５は、検索処理の際に用いる索引情報を言語情報によらず記憶する記憶部である。
【００３６】
分割処理手段６は、文書データにその文書データの言語情報の単語分割処理と表記正規化処理とを行い、索引単位に分割する処理部である。
【００３７】
登録処理手段７は、入力手段１から入力された文書データとその言語情報とを、その文書データを示す識別子（文書識別子）と共に、文書データ記憶部３に登録する。また、その言語の文書データ件数を増加し、言語別件数記憶部４に登録すると共に、言語ごとの複数の分割処理手段６を用いて文書データを索引単位に分割、正規化し、その正規化した後の表記が異なる索引単位を、その文書データの中での出現位置情報と文書データの文書識別子と共に全文索引記憶部５に登録する処理部である。
【００３８】
検索処理手段８は、入力手段１を用いて入力される検索条件を、言語ごとの複数の分割処理手段６を用いて分割し、その分割して得られた複数の正規化検索文字列を用いて検索式を生成し、該生成した索引式を用いて全文索引記憶部５から検索する処理部である。
【００３９】
なお、全文検索装置において文書データの登録時に索引単位の表記を正規化して全文索引記憶部５に格納し、また、検索処理時においても検索語の表記を正規化して検索処理を行うことにより、クライアントの表記によらない検索結果を求めることが可能となる。このとき行われる表記の正規化も言語に依存する処理である。
【００４０】
特に、欧米語を対象とするステミングは、言語に依存する処理である。ステミングとは、語の語幹を基に検索を行うことで、例えば、英語の「ｗａｌｋｅｄ」、「ｗａｌｋｅｒ」、「ｗａｌｋｉｎｇ」はステミングにより「ｗａｌｋ」となり、これらの語を同時に検索結果とすることができるというものである。
【００４１】
例えば、英語では単数形・複数形の正規化、活用形の正規化、音標記号の表記の正規化、大文字・小文字の正規化などの処理が正規化処理になる。なお、これらも言語に依存する処理である。日本語の場合には、漢字の正字・異体字の正規化、カタカナの表記の正規化（「インターフェース」、「インターフェイス」、「インタフェイス」を同じ物とするなど）、記号の表記の正規化（括弧類、引用符、中黒のあるなしなど）、全角・半角の正規化などの処理が正規化処理になる。
【００４２】
次に、図２を参照しながら本実施の形態における全文検索装置のハードウェア構成について説明する。
【００４３】
本実施の形態における全文検索装置は、入力装置２０と、出力装置２１と、主制御装置２２と、記憶装置２３と、入出力制御装置２４と、を有して構成される。
【００４４】
上記構成からなる全文検索装置において、入力装置２０は、入力手段１で実現される。また、出力装置２１は、出力手段２で実現される。また、主制御装置２２は、分割処理手段６と、登録処理手段７と、検索処理手段８と、の各種処理手段で実現される。なお、記憶装置２３は、文書データ記憶部３と、言語別件数記憶部４と、全文索引記憶部５と、の各種記憶部に相当する。例えば、１つの限られた記憶装置を用いて本発明にかかる全文検索を行う場合、検索処理をメインに行うか、または、登録処理をメインに行うかで、その使用する領域を割り当てる。これにより処理を効率的に行うことが可能となる。なお、主制御装置２２にはＣＰＵ、メモリ等が用いられる。また、入出力制御装置２４は、主制御装置２２の制御信号に従って入力装置２０と出力装置２１とを制御する。
【００４５】
次に、図３を参照しながら本実施の形態におけるクライアント／サーバでのハードウェア構成について説明する。
【００４６】
クライアント側２５は、入力装置２０と、出力装置２１と、主制御装置２２と、ネットワーク制御装置２６と、入出力制御装置２４と、を有して構成されている。
サーバ側２７は、ネットワーク制御装置２６と、主制御装置２２と、記憶装置２３と、を有して構成されている。なお、クライアント２５とサーバ２７とはネットワーク２８を介して接続されている。
【００４７】
上記構成からなるクライアント／サーバでのハードウェア構成において、入力装置２０は、入力手段１で実現される。また、出力装置２１は出力手段２で実現される。また、主制御装置２２は、分割処理手段６と、登録処理手段７と、検索処理手段８と、の各処理手段で実現される。なお、記憶装置２３は、文書データ記憶部３と、言語別件数記憶部４と、全文検索記憶部５と、の各記憶部に相当する。また、ネットワーク制御装置２６は、ネットワーク２８を介してクライアント２５とサーバ２７との間のデータ伝送等の制御を行う。さらに、クライアント２５の入出力制御装置２４は、主制御装置２２の制御信号に従って入力装置２０と出力装置２１とを制御する。
【００４８】
ここで、本発明にかかる全文検索装置における処理動作の概要を説明する。
まず、第１段階として、検索データを収集する。この検索データは、ローカルディスク上のデータであることもあり、イントラネット内部にロボットを走らせて収集したデータであることもある。また、インターネット全体にロボットを走らせることもある。
【００４９】
第２段階として、第１段階で収集した検索データを文書ファイルに通し、インデクサにおいてインデクシングする。
【００５０】
次に、実際の運用段階である第３段階として、クライアントからの検索要求に対して検索エンジン部分のインデックスを用いて検索し、検索結果をクライアントに送信する。
【００５１】
ここで、上記第３段階において用いるインデックスを作成するために欠かすことの出来ない分割処理手段の一例として形態素解析について説明する。
【００５２】
日本語などの文書では単語間に空白がなく区切られていないので、そのままの文書では基本とする検索インデックスを作成することが出来ない。そこで、形態素辞書と形態素に関する文法の知識を用いて、文書を単語単位に「分かち書き」し、それぞれにおける語の構文上の役割を決める形態素解析を用いる。「分かち書き」とは、文書を書く時に語と語、または、文節と文節の間に空白を置く書き方である。
【００５３】
なお、形態素とは、それ以上分割出来ない語の単位であり、一般的には、意味を持つ最小の要素のことをいい、文はこの形態素で構成される。例えば、「文書を検索する」という文を、「文書」、「を」、「検索」、「する」、という形態素に分割することで、それぞれの形態素に意味を与え、構文解析や意味解析、文脈理解などの自然言語処理に活用する。
【００５４】
形態素解析を行うための重要な処理は、「分かち書き」と「単語の品詞の同定」と「辞書にない語の処理」との３つであるが、形態素に分解する際、その切り出しには多様な組み合わせがあり、さらに切り出された方法には品詞上の多様な方法が発生する。
【００５５】
なお、以下に主な解析方法について説明する。
【００５６】
最長一致法は、与えられた文字列を右から順に走査し、辞書に登録されている単語のうち最も長く一致するものを選択する方法である。
【００５７】
字種切り法は、区切り符号（句読点など）、漢字、カタカナ、英字、数字、平仮名など、字種の切れ目を利用して、優先度でまとめて切る方法である。
【００５８】
文節数最小法は、文書を文節数が最小になるように切る方法である。なお、文節とは、「名詞＋助詞」、「動詞」などのまとまりを言う。
【００５９】
接続規則法は、単語Ａの次に単語Ｂが接続可能かどうかを記載した接続表を用いる方法である。単語では組み合わせが膨大になるため、品詞の接続、字種の接続、熟語を形成する接続などの規則を適用する。
【００６０】
このように形態解析方式の全文検索では、形態素とその形態素に与えられた意味情報を用いて、キーワードの自動抽出や索引（検索インデックス）作成、あるいは、自然言語インターフェースを実現している。
【００６１】
次に、本発明にかかる全文検索装置における処理動作について説明する。
【００６２】
（文書データの登録処理）
まず、図４を参照しながら、全文検索装置における文書データの登録処理について説明する。
【００６３】
文書データの登録処理を実行するには、まず、クライアントが文書データを作成し（ステップＳ１）、入力手段１からその作成した文書データとその文書データの言語情報とを登録処理手段７に登録する（ステップＳ２）。次に、登録処理手段７は、入力手段１から入力された文書データとその文書データの言語情報とを文書データ記憶部３に登録し、同時にその文書データを示す識別子（文書識別子）を設定する（ステップＳ３）。なお、文書データ記憶部３の概念図を図５に示す。例えば、図５には、「・・・検索処理手段は、・・・ｓｅａｒｃｈ命令にしたがい・・・」という文書データは、文書識別子が１００で設定されており、言語情報が言語Ａで設定されている。また、「・・・ＳｉｅｓｕｃｈｔｅｎｄａｓＨｏｌｚｎａｃｈｄｅｍｆｅｈｌｅｎｄｅｎｋｉｎｄ．・・・」という文書データは、文書識別子が１０５で設定されており、言語情報が言語Ｂで設定されている。
【００６４】
次に、登録処理手段７は、その言語の文書データ件数を増加させ、言語別件数記憶部４に登録する（ステップＳ４）。なお、言語別件数記憶部４の概念図を図６に示す。言語別件数記憶部４は、言語情報と、文書データ件数と、で構成されており、各言語情報毎に文書データ件数が記憶されている。
【００６５】
次に、登録処理手段７は、その言語情報の分割処理手段６を用いて文書データを索引単位に分割、正規化する（ステップＳ５）。そして、登録処理手段７は、正規化後の表記が異なる索引単位を、その文書データ中での出現位置情報と文書識別子と共に全文索引記憶部５に登録する（ステップＳ６）。
【００６６】
なお、全文索引記憶部５の概念図を図７に示す。全文索引記憶部５は、索引単位と転置リスト｛文書識別子，出現回数，出現位置｝とで構成されており、例えば、索引単位：「検索」に対する転置リスト：｛１００，２，（２０，６０）｝において、「１００」は文書識別子（文書ＩＤ）を示し、「２」は出現回数を示し、「（２０、６０）」は出現位置を示す。
【００６７】
従って、「検索」に対する転置リスト｛１００，２，（２０，６０）｝は、「文書１００には「検索」は２回出現し、その出現位置は２０，６０文字目である」という情報を示す。また、「ｓｅａｒｃｈ」に対する転置リスト｛１００，３，（２６０，２８０，３２０）｝は、「文書１００には「ｓｅａｒｃｈ」は３回出現し、その出現位置は２６０，２８０，３２０文字目である」という情報を示す。同様に、「ｓｕｃｈｅ」に対する転置リスト｛１０５，２，（１０，５０）｝は、「文書１００には「ｓｕｃｈｅ」は２回出現し、その出現位置は１０，５０文字目である」という情報を示すこととなる。
【００６８】
このように、全文検索装置において、登録処理手段７は、入力手段１から入力された文書データとその言語情報とを、その文書データを示す識別子（文書識別子）と共に、文書データ記憶部３に登録する。また、その言語の文書データ件数を増加し、言語別件数記憶部４に登録すると共に、登録処理手段７は、言語ごとの複数の分割処理手段６を用いて文書データを索引単位に分割、正規化し、その正規化後の表記が異なる索引単位を、その文書データの中での出現位置情報と文書データの文書識別子と共に全文索引記憶部５に登録することで、検索処理の効率化を図ることが可能となる。
【００６９】
（文書データの第１の検索処理）
次に、図８を参照しながら、全文検索装置における文書データの第１の検索処理について説明する。
【００７０】
文書データの検索処理を実行するには、まず、クライアントが入力手段１から検索文字列を検索処理手段８に入力する（ステップＳ１０）。そして、検索処理手段８は言語ごとの複数の分割処理手段６を用いて、入力手段１から入力された検索文字列を索引単位に分割、正規化する（ステップＳ１１）。次に、検索処理手段８は、分割して得られた複数の索引単位の論理和を検索条件とし、全文索引を用いて索引単位（検索文字列）を含む文書データの文書識別子の集合（Ｒｓ）を全文索引記憶部５から取得する（ステップＳ１２）。そして、検索処理手段８は、全文索引記憶部５から取得した索引単位（検索文字列）を含む文書データの文書識別子の集合（Ｒｓ）を、出力手段２を通じてクライアントに出力する（ステップＳ１３）。
【００７１】
このように、全文検索装置において、検索処理手段８は、入力手段１から入力される検索文字列を、言語ごとの複数の分割処理手段６を用いて分割し、その分割して得られた複数の正規化した検索文字列を用いて検索式を生成し、全文索引記憶部５から検索することで、検索文字列の言語情報を付加することなく検索処理を実行できるため、クライアントの負荷を軽減することが可能となる。
【００７２】
（文書データの第２の検索処理）
次に、図９を参照しながら、全文検索装置における文書データの第２の検索処理について説明する。
【００７３】
文書データの検索処理を実行するには、まず、クライアントが入力手段１から検索文字列を検索処理手段８に入力する（ステップＳ２０）。次に、検索処理手段８は言語別件数記憶部４に記憶されている言語情報を調べ、それらの言語情報の分割処理手段６を用いて、入力手段１により入力された検索文字列を索引単位に分割、正規化する（ステップＳ２１）。そして、検索処理手段８は、得られた複数の索引単位の論理和を検索条件とし、全文索引を用いて索引単位（検索文字列）を含む文書データの文書識別子の集合（Ｒｓ）を全文索引記憶部５から取得する（ステップＳ２２）。そして、検索処理手段８は、全文索引記憶部５から取得した索引単位（検索文字列）を含む文書データの文書識別子の集合（Ｒｓ）を、出力手段２を通じてクライアントに出力する（ステップＳ２３）。
【００７４】
このように、全文検索装置において、検索処理手段８は、言語識別数記憶部４に記憶されている言語情報を調べ、それらの言語情報の分割処理手段６のみを用いて、入力手段１により入力された検索文字列を索引単位に分割し、その分割して得られた複数の正規化検索文字列を用いて検索式を生成することで、検索文字列の展開数を最小にするので、検索処理を効率よく行うことが可能となり、クライアントが検索結果を取得するまでの待ち時間を短くすることが可能となる。
【００７５】
なお、上述する実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、上記の実施の形態における全文検索装置における処理動作をプログラムとして、コンピュータ等の情報処理装置において実行させることでも、本実施の形態における全文検索装置を構築することは可能である。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して、その記録媒体を情報処理装置に搭載させることでも、本実施の形態における全文検索装置を構築することは可能である。
【００７６】
【発明の効果】
以上の説明より明らかなように本発明は以下のような効果を奏する。
本発明によれば、文書データの言語情報を付与することなく、文書データの処理を行うことが可能となるため、クライアントの負荷を軽減することができる。
【図面の簡単な説明】
【図１】本発明にかかる全文検索装置の構成を示すブロック図である。
【図２】スタンドアロン形態でのハードウェアの構成を示すブロック図である。
【図３】クライアント／サーバ形態でのハードウェアの構成を示すブロック図である。
【図４】本発明にかかる全文検索装置における文書データの登録処理の手順を示すフローチャートである。
【図５】本発明にかかる全文検索装置を構成する文書データ記憶部の概念図である。
【図６】本発明にかかる全文検索装置を構成する言語別件数記憶部の概念図である。
【図７】本発明にかかる全文検索装置を構成する全文索引記憶部の概念図である。
【図８】本発明にかかる全文検索装置における文書データの第１の検索処理の手順を示すフローチャートである。
【図９】本発明にかかる全文検索装置における文書データの第２の検索処理の手順を示すフローチャートである。
【符号の説明】
１入力手段
２出力手段
３文書データ記憶部
４言語別件数記憶部
５全文索引記憶部
６分割処理手段
７登録処理手段
８検索処理手段
２０入力装置
２１出力装置
２２主制御装置
２３記憶装置
２４入出力制御装置
２５クライアント
２６ネットワーク制御装置
２７サーバ
２８ネットワーク

Claims

それぞれ異なる言語で記述された複数の文書データから、指定された文字列を含む文書データを検索する全文検索装置であって、
文書データと該文書データの言語情報とを入力する入力手段と、
文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、
言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、
前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、
検索の際に用いる索引情報を記憶する全文索引記憶手段と、
各種情報を登録する登録処理手段と、
前記全文索引記憶手段に記憶された索引情報を検索する検索処理手段と、を有し、
前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有し、
前記登録処理手段は、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する手段と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する手段と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する手段と、を有し、
前記検索処理手段は、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索することを特徴とする全文検索装置。
文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置で行う方法であって、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する工程と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する工程と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する工程と、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する工程と、を前記全文検索装置が行うことを特徴とする方法。
文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置において実行されるプログラムであって、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する処理と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する処理と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する処理と、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する処理と、をコンピュータに実行させることを特徴とするプログラム。
請求項３に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。