JP4262529B2 - 全文検索装置、方法、プログラム及び記録媒体 - Google Patents

全文検索装置、方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP4262529B2
JP4262529B2 JP2003168375A JP2003168375A JP4262529B2 JP 4262529 B2 JP4262529 B2 JP 4262529B2 JP 2003168375 A JP2003168375 A JP 2003168375A JP 2003168375 A JP2003168375 A JP 2003168375A JP 4262529 B2 JP4262529 B2 JP 4262529B2
Authority
JP
Japan
Prior art keywords
document data
index
language
input
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003168375A
Other languages
English (en)
Other versions
JP2005004545A (ja
Inventor
研策 山本
裕一 小島
裕子 井田
優希子 平岡
泰嗣 小川
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003168375A priority Critical patent/JP4262529B2/ja
Publication of JP2005004545A publication Critical patent/JP2005004545A/ja
Application granted granted Critical
Publication of JP4262529B2 publication Critical patent/JP4262529B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数の文書データから指定された文字列を含む文書データを検索する全文検索装置、方法、プログラム及び記録媒体に関し、特に、文書管理システム、電子図書館システム、特許公報検索システム、といった大量の文書データを管理する際に極めて好適な全文検索装置、方法、プログラム及び記録媒体に関する。
【0002】
【従来の技術】
近年の情報通信技術の発達により、大量の電子化文書にアクセスできる環境が整いつつある。このような状況下において、ユーザが所望の文書を精度よく、さらには高速に検索する文書検索装置が提案されている。この文書検索装置には、キーワード検索手法や全文検索手法が用いられている。
【0003】
全文検索手法は、任意の検索文字列と検索対象の全ての文書との間で照合を行い、検索文字列を含む文書を漏れなく抽出する方法である。これにより、キーワード検索手法のように検索対象となる全ての文書に対してキーワードを予め付与する必要がない。また、ユーザが取得したいキーワードをインターネット上から検索漏れのないように取得することが可能となる。
【0004】
なお、全文検索において、全文索引を作成するためには、文書データを索引単位に分割する分割処理手段が必要である。分割処理手段としては、N文字のつながりを単位として分割する方法や、形態素解析を用いて単語単位で分割する方法等がある。
【0005】
N文字のつながりを単位として分割する方法は、文書データをN文字単位に分割し、各文字列が含まれた文書データの情報と、文字列の位置情報とによるインデックスを検索し、文字列間の位置関係を調べ、該当する文書データを抽出する方法である。
【0006】
また、形態素解析方法は、日本語を解析するための辞書を使用して、入力された文書データを単語単位に分解し、該分解した単語単位の中から名詞などのキーワードとなる用語を抽出する方法である。
【0007】
しかしながら、最も中核となる大規模インデックス作成部分の技術である全文検索技術は、様々な意味でのトレードオフが避けられない。
【0008】
そこで、複数の言語の文を含む文書データに対して、検索の際に用いるインデックスを作成して文書データの検索を行う新規な全文検索装置がある(特許文献1参照)。
【0009】
この特許文献1は、複数の言語の文を含む文書データを格納し、該格納した文書データと異なる言語の文書データに対応してそれぞれに形態素解析を行う。そして、文書データのキーワードを抽出し、該抽出したキーワードに対応する文書データの識別子と共にインデックスとして登録する。そして、入力された検索条件から単語を切り出し、該切り出した単語とインデックスとのキーワードを照合して、その照合結果により検索条件に適合する文書データを読み出す。これにより、ユーザの所望に応じた多言語文書データの登録処理や検索処理が可能となる。
【0010】
また、多言語文書データに関する索引を言語ごとに分けて格納することで文書データを管理し、該管理した文書データを用いて文書データの検索処理を行う新規な全文検索装置がある(特許文献2参照)。
【0011】
この特許文献2は、複数の言語の文字を含む多言語文書データの言語を識別し、該識別した多言語データに関する索引を言語別に作成し、言語ごとに格納する。そして、言語ごとの索引を使用して多言語文書データの検索を行うことで、言語ごとに区別して管理することが可能となる。
【0012】
また、本出願人による従来技術として、複数の文書データをまとめて1つの文書データとして管理、または、検索できる全文検索装置がある(特許文献3参照)。
【0013】
この特許文献3は、部分文書に分割された文書データを1つの文書データとして登録し、該登録された複数の文書データの中から指定された文字列を含む部分文書データを検索することで、部分文書単位での取り出しや、検索語の出現箇所表示を行うことが可能となる。
【0014】
【特許文献1】
特開平9−50442号公報
【特許文献2】
特開2001−67368号公報
【特許文献3】
特開2001−249943号公報
【0015】
【発明が解決しようとする課題】
しかしながら、特許文献1は、1つの文書データが複数の言語から構成されているため制限が少ないが、分割処理手段(多言語キーワード抽出部)において、1つの文書データに対して複数の形態素解析処理を行うため、処理速度は低下すると考えられる。また、キーワードしか抽出していないため、任意の文字列での全文検索が不可能である。
【0016】
また、特許文献2では、1つの文書データが複数の言語からなっているため、制限が少ないが、言語別に文書データ及び索引を格納するので、登録処理や検索処理の処理速度が低下すると考えられる。
【0017】
また、特許文献3では、複数の文書データをまとめて1つの文書データとして管理、検索できるが、言語情報に関する記述は何ら言及されていない。
【0018】
また、N文字のつながりを単位とする分割処理手段では、言語情報への依存性はなくなるが、分割数が増え索引単位が多くなるので、全文索引記憶部に要する領域が大きくなる、また、登録処理、検索処理、で処理すべきデータ量が多くなるため処理速度が低下する等の問題点が考えられる。
【0019】
一方、形態素解析を用いる分割処理手段は、単語単位に分割するので索引単位の数は少なくなるが、その実装が言語情報に依存するという問題がある。例えば、欧米語のようにワード間に空白がある言語の場合、分割処理手段はスペースなどの文字の切れ目を検出し、文字の連続部分を単語とすればよく実装が簡単である。しかし、日本語のように文書中に空白などの区切りのない言語の場合、ワード自体の識別が困難である。従って、分割処理手段は、構文解析技法を用いて単語を検出する必要があり実装は難しいものになる。これは、従来の全文検索装置では、全文検索の対象とする言語を1つとし、その言語に最適な1つの分割処理手段しか有していないことになる。また、日本語の表記の多様性(複合語、カタカナ異表記)から、単語のインデックスを作成しても検索漏れが生じていた。
【0020】
本発明は上記事情に鑑みてなされたものであり、複数の言語の文書データに対応した全文検索装置、方法、プログラム及び記録媒体を提供することを目的とする。
【0021】
【課題を解決するための手段】
かかる目的を達成するために本発明は以下のような特徴を有する。
<全文検索装置>
本発明にかかる全文検索装置は、
それぞれ異なる言語で記述された複数の文書データから、指定された文字列を含む文書データを検索する全文検索装置であって、
文書データと該文書データの言語情報とを入力する入力手段と、
文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、
言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、
前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、
検索の際に用いる索引情報を記憶する全文索引記憶手段と、
各種情報を登録する登録処理手段と、
前記全文索引記憶手段に記憶された索引情報を検索する検索処理手段と、を有し、
前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有し、
前記登録処理手段は、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する手段と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する手段と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する手段と、を有し、
前記検索処理手段は、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索することを特徴とする。
【0022】
<方法>
また、本発明にかかる方法は、
文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置で行う方法であって、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する工程と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する工程と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する工程と、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する工程と、を前記全文検索装置が行うことを特徴とする。
【0023】
<プログラム>
また、本発明にかかるプログラムは、
文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置において実行されるプログラムであって、
前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する処理と、
前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する処理と、
前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する処理と、
前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する処理と、をコンピュータに実行させることを特徴とする。
【0024】
<記録媒体>
また、本発明にかかる記録媒体は、
上記記載のプログラムをコンピュータ読み取り可能な記録媒体に記録したことを特徴とする。
【0028】
【発明の実施の形態】
以下、添付図面を参照しながら本発明にかかる実施の形態について詳細に説明する。
【0029】
まず、図1を参照しながら、本発明にかかる全文検索装置の構成について説明する。
【0030】
本発明にかかる全文検索装置は、入力手段1と、出力手段2と、文書データ記憶部3と、言語別件数記憶部4と、全文索引記憶部5と、複数の分割処理手段6と、登録処理手段7と、検索処理手段8と、を有して構成されている。以下、全文検索装置を構成する各部の機能について説明する。
【0031】
入力手段1は、文書データとその文書データの言語情報、または、検索条件を入力する処理部である。
【0032】
出力手段2は、検索処理手段8により検索された検索結果を出力する処理部である。
【0033】
文書データ記憶部3は、文書データとその文書データの言語情報とを記憶する記憶部である。
【0034】
言語別件数記憶部4は、言語情報ごとの文書データの件数を記憶する記憶部である。
【0035】
全文索引記憶部5は、検索処理の際に用いる索引情報を言語情報によらず記憶する記憶部である。
【0036】
分割処理手段6は、文書データにその文書データの言語情報の単語分割処理と表記正規化処理とを行い、索引単位に分割する処理部である。
【0037】
登録処理手段7は、入力手段1から入力された文書データとその言語情報とを、その文書データを示す識別子(文書識別子)と共に、文書データ記憶部3に登録する。また、その言語の文書データ件数を増加し、言語別件数記憶部4に登録すると共に、言語ごとの複数の分割処理手段6を用いて文書データを索引単位に分割、正規化し、その正規化した後の表記が異なる索引単位を、その文書データの中での出現位置情報と文書データの文書識別子と共に全文索引記憶部5に登録する処理部である。
【0038】
検索処理手段8は、入力手段1を用いて入力される検索条件を、言語ごとの複数の分割処理手段6を用いて分割し、その分割して得られた複数の正規化検索文字列を用いて検索式を生成し、該生成した索引式を用いて全文索引記憶部5から検索する処理部である。
【0039】
なお、全文検索装置において文書データの登録時に索引単位の表記を正規化して全文索引記憶部5に格納し、また、検索処理時においても検索語の表記を正規化して検索処理を行うことにより、クライアントの表記によらない検索結果を求めることが可能となる。このとき行われる表記の正規化も言語に依存する処理である。
【0040】
特に、欧米語を対象とするステミングは、言語に依存する処理である。ステミングとは、語の語幹を基に検索を行うことで、例えば、英語の「walked」、「walker」、「walking」はステミングにより「walk」となり、これらの語を同時に検索結果とすることができるというものである。
【0041】
例えば、英語では単数形・複数形の正規化、活用形の正規化、音標記号の表記の正規化、大文字・小文字の正規化などの処理が正規化処理になる。なお、これらも言語に依存する処理である。日本語の場合には、漢字の正字・異体字の正規化、カタカナの表記の正規化(「インターフェース」、「インターフェイス」、「インタフェイス」を同じ物とするなど)、記号の表記の正規化(括弧類、引用符、中黒のあるなしなど)、全角・半角の正規化などの処理が正規化処理になる。
【0042】
次に、図2を参照しながら本実施の形態における全文検索装置のハードウェア構成について説明する。
【0043】
本実施の形態における全文検索装置は、入力装置20と、出力装置21と、主制御装置22と、記憶装置23と、入出力制御装置24と、を有して構成される。
【0044】
上記構成からなる全文検索装置において、入力装置20は、入力手段1で実現される。また、出力装置21は、出力手段2で実現される。また、主制御装置22は、分割処理手段6と、登録処理手段7と、検索処理手段8と、の各種処理手段で実現される。なお、記憶装置23は、文書データ記憶部3と、言語別件数記憶部4と、全文索引記憶部5と、の各種記憶部に相当する。例えば、1つの限られた記憶装置を用いて本発明にかかる全文検索を行う場合、検索処理をメインに行うか、または、登録処理をメインに行うかで、その使用する領域を割り当てる。これにより処理を効率的に行うことが可能となる。なお、主制御装置22にはCPU、メモリ等が用いられる。また、入出力制御装置24は、主制御装置22の制御信号に従って入力装置20と出力装置21とを制御する。
【0045】
次に、図3を参照しながら本実施の形態におけるクライアント/サーバでのハードウェア構成について説明する。
【0046】
クライアント側25は、入力装置20と、出力装置21と、主制御装置22と、ネットワーク制御装置26と、入出力制御装置24と、を有して構成されている。
サーバ側27は、ネットワーク制御装置26と、主制御装置22と、記憶装置23と、を有して構成されている。なお、クライアント25とサーバ27とはネットワーク28を介して接続されている。
【0047】
上記構成からなるクライアント/サーバでのハードウェア構成において、入力装置20は、入力手段1で実現される。また、出力装置21は出力手段2で実現される。また、主制御装置22は、分割処理手段6と、登録処理手段7と、検索処理手段8と、の各処理手段で実現される。なお、記憶装置23は、文書データ記憶部3と、言語別件数記憶部4と、全文検索記憶部5と、の各記憶部に相当する。また、ネットワーク制御装置26は、ネットワーク28を介してクライアント25とサーバ27との間のデータ伝送等の制御を行う。さらに、クライアント25の入出力制御装置24は、主制御装置22の制御信号に従って入力装置20と出力装置21とを制御する。
【0048】
ここで、本発明にかかる全文検索装置における処理動作の概要を説明する。
まず、第1段階として、検索データを収集する。この検索データは、ローカルディスク上のデータであることもあり、イントラネット内部にロボットを走らせて収集したデータであることもある。また、インターネット全体にロボットを走らせることもある。
【0049】
第2段階として、第1段階で収集した検索データを文書ファイルに通し、インデクサにおいてインデクシングする。
【0050】
次に、実際の運用段階である第3段階として、クライアントからの検索要求に対して検索エンジン部分のインデックスを用いて検索し、検索結果をクライアントに送信する。
【0051】
ここで、上記第3段階において用いるインデックスを作成するために欠かすことの出来ない分割処理手段の一例として形態素解析について説明する。
【0052】
日本語などの文書では単語間に空白がなく区切られていないので、そのままの文書では基本とする検索インデックスを作成することが出来ない。そこで、形態素辞書と形態素に関する文法の知識を用いて、文書を単語単位に「分かち書き」し、それぞれにおける語の構文上の役割を決める形態素解析を用いる。「分かち書き」とは、文書を書く時に語と語、または、文節と文節の間に空白を置く書き方である。
【0053】
なお、形態素とは、それ以上分割出来ない語の単位であり、一般的には、意味を持つ最小の要素のことをいい、文はこの形態素で構成される。例えば、「文書を検索する」という文を、「文書」、「を」、「検索」、「する」、という形態素に分割することで、それぞれの形態素に意味を与え、構文解析や意味解析、文脈理解などの自然言語処理に活用する。
【0054】
形態素解析を行うための重要な処理は、「分かち書き」と「単語の品詞の同定」と「辞書にない語の処理」との3つであるが、形態素に分解する際、その切り出しには多様な組み合わせがあり、さらに切り出された方法には品詞上の多様な方法が発生する。
【0055】
なお、以下に主な解析方法について説明する。
【0056】
最長一致法は、与えられた文字列を右から順に走査し、辞書に登録されている単語のうち最も長く一致するものを選択する方法である。
【0057】
字種切り法は、区切り符号(句読点など)、漢字、カタカナ、英字、数字、平仮名など、字種の切れ目を利用して、優先度でまとめて切る方法である。
【0058】
文節数最小法は、文書を文節数が最小になるように切る方法である。なお、文節とは、「名詞+助詞」、「動詞」などのまとまりを言う。
【0059】
接続規則法は、単語Aの次に単語Bが接続可能かどうかを記載した接続表を用いる方法である。単語では組み合わせが膨大になるため、品詞の接続、字種の接続、熟語を形成する接続などの規則を適用する。
【0060】
このように形態解析方式の全文検索では、形態素とその形態素に与えられた意味情報を用いて、キーワードの自動抽出や索引(検索インデックス)作成、あるいは、自然言語インターフェースを実現している。
【0061】
次に、本発明にかかる全文検索装置における処理動作について説明する。
【0062】
(文書データの登録処理)
まず、図4を参照しながら、全文検索装置における文書データの登録処理について説明する。
【0063】
文書データの登録処理を実行するには、まず、クライアントが文書データを作成し(ステップS1)、入力手段1からその作成した文書データとその文書データの言語情報とを登録処理手段7に登録する(ステップS2)。次に、登録処理手段7は、入力手段1から入力された文書データとその文書データの言語情報とを文書データ記憶部3に登録し、同時にその文書データを示す識別子(文書識別子)を設定する(ステップS3)。なお、文書データ記憶部3の概念図を図5に示す。例えば、図5には、「・・・検索処理手段は、・・・search命令にしたがい・・・」という文書データは、文書識別子が100で設定されており、言語情報が言語Aで設定されている。また、「・・・Sie suchten das Holz nach dem fehlenden kind.・・・」という文書データは、文書識別子が105で設定されており、言語情報が言語Bで設定されている。
【0064】
次に、登録処理手段7は、その言語の文書データ件数を増加させ、言語別件数記憶部4に登録する(ステップS4)。なお、言語別件数記憶部4の概念図を図6に示す。言語別件数記憶部4は、言語情報と、文書データ件数と、で構成されており、各言語情報毎に文書データ件数が記憶されている。
【0065】
次に、登録処理手段7は、その言語情報の分割処理手段6を用いて文書データを索引単位に分割、正規化する(ステップS5)。そして、登録処理手段7は、正規化後の表記が異なる索引単位を、その文書データ中での出現位置情報と文書識別子と共に全文索引記憶部5に登録する(ステップS6)。
【0066】
なお、全文索引記憶部5の概念図を図7に示す。全文索引記憶部5は、索引単位と転置リスト{文書識別子,出現回数,出現位置}とで構成されており、例えば、索引単位:「検索」に対する転置リスト:{100,2,(20,60)}において、「100」は文書識別子(文書ID)を示し、「2」は出現回数を示し、「(20、60)」は出現位置を示す。
【0067】
従って、「検索」に対する転置リスト{100,2,(20,60)}は、「文書100には「検索」は2回出現し、その出現位置は20,60文字目である」という情報を示す。また、「search」に対する転置リスト{100,3,(260,280,320)}は、「文書100には「search」は3回出現し、その出現位置は260,280,320文字目である」という情報を示す。同様に、「suche」に対する転置リスト{105,2,(10,50)}は、「文書100には「suche」は2回出現し、その出現位置は10,50文字目である」という情報を示すこととなる。
【0068】
このように、全文検索装置において、登録処理手段7は、入力手段1から入力された文書データとその言語情報とを、その文書データを示す識別子(文書識別子)と共に、文書データ記憶部3に登録する。また、その言語の文書データ件数を増加し、言語別件数記憶部4に登録すると共に、登録処理手段7は、言語ごとの複数の分割処理手段6を用いて文書データを索引単位に分割、正規化し、その正規化後の表記が異なる索引単位を、その文書データの中での出現位置情報と文書データの文書識別子と共に全文索引記憶部5に登録することで、検索処理の効率化を図ることが可能となる。
【0069】
(文書データの第1の検索処理)
次に、図8を参照しながら、全文検索装置における文書データの第1の検索処理について説明する。
【0070】
文書データの検索処理を実行するには、まず、クライアントが入力手段1から検索文字列を検索処理手段8に入力する(ステップS10)。そして、検索処理手段8は言語ごとの複数の分割処理手段6を用いて、入力手段1から入力された検索文字列を索引単位に分割、正規化する(ステップS11)。次に、検索処理手段8は、分割して得られた複数の索引単位の論理和を検索条件とし、全文索引を用いて索引単位(検索文字列)を含む文書データの文書識別子の集合(Rs)を全文索引記憶部5から取得する(ステップS12)。そして、検索処理手段8は、全文索引記憶部5から取得した索引単位(検索文字列)を含む文書データの文書識別子の集合(Rs)を、出力手段2を通じてクライアントに出力する(ステップS13)。
【0071】
このように、全文検索装置において、検索処理手段8は、入力手段1から入力される検索文字列を、言語ごとの複数の分割処理手段6を用いて分割し、その分割して得られた複数の正規化した検索文字列を用いて検索式を生成し、全文索引記憶部5から検索することで、検索文字列の言語情報を付加することなく検索処理を実行できるため、クライアントの負荷を軽減することが可能となる。
【0072】
(文書データの第2の検索処理)
次に、図9を参照しながら、全文検索装置における文書データの第2の検索処理について説明する。
【0073】
文書データの検索処理を実行するには、まず、クライアントが入力手段1から検索文字列を検索処理手段8に入力する(ステップS20)。次に、検索処理手段8は言語別件数記憶部4に記憶されている言語情報を調べ、それらの言語情報の分割処理手段6を用いて、入力手段1により入力された検索文字列を索引単位に分割、正規化する(ステップS21)。そして、検索処理手段8は、得られた複数の索引単位の論理和を検索条件とし、全文索引を用いて索引単位(検索文字列)を含む文書データの文書識別子の集合(Rs)を全文索引記憶部5から取得する(ステップS22)。そして、検索処理手段8は、全文索引記憶部5から取得した索引単位(検索文字列)を含む文書データの文書識別子の集合(Rs)を、出力手段2を通じてクライアントに出力する(ステップS23)。
【0074】
このように、全文検索装置において、検索処理手段8は、言語識別数記憶部4に記憶されている言語情報を調べ、それらの言語情報の分割処理手段6のみを用いて、入力手段1により入力された検索文字列を索引単位に分割し、その分割して得られた複数の正規化検索文字列を用いて検索式を生成することで、検索文字列の展開数を最小にするので、検索処理を効率よく行うことが可能となり、クライアントが検索結果を取得するまでの待ち時間を短くすることが可能となる。
【0075】
なお、上述する実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、上記の実施の形態における全文検索装置における処理動作をプログラムとして、コンピュータ等の情報処理装置において実行させることでも、本実施の形態における全文検索装置を構築することは可能である。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して、その記録媒体を情報処理装置に搭載させることでも、本実施の形態における全文検索装置を構築することは可能である。
【0076】
【発明の効果】
以上の説明より明らかなように本発明は以下のような効果を奏する。
本発明によれば、文書データの言語情報を付与することなく、文書データの処理を行うことが可能となるため、クライアントの負荷を軽減することができる。
【図面の簡単な説明】
【図1】本発明にかかる全文検索装置の構成を示すブロック図である。
【図2】スタンドアロン形態でのハードウェアの構成を示すブロック図である。
【図3】クライアント/サーバ形態でのハードウェアの構成を示すブロック図である。
【図4】本発明にかかる全文検索装置における文書データの登録処理の手順を示すフローチャートである。
【図5】本発明にかかる全文検索装置を構成する文書データ記憶部の概念図である。
【図6】本発明にかかる全文検索装置を構成する言語別件数記憶部の概念図である。
【図7】本発明にかかる全文検索装置を構成する全文索引記憶部の概念図である。
【図8】本発明にかかる全文検索装置における文書データの第1の検索処理の手順を示すフローチャートである。
【図9】本発明にかかる全文検索装置における文書データの第2の検索処理の手順を示すフローチャートである。
【符号の説明】
1 入力手段
2 出力手段
3 文書データ記憶部
4 言語別件数記憶部
5 全文索引記憶部
6 分割処理手段
7 登録処理手段
8 検索処理手段
20 入力装置
21 出力装置
22 主制御装置
23 記憶装置
24 入出力制御装置
25 クライアント
26 ネットワーク制御装置
27 サーバ
28 ネットワーク

Claims (4)

  1. それぞれ異なる言語で記述された複数の文書データから、指定された文字列を含む文書データを検索する全文検索装置であって、
    文書データと該文書データの言語情報とを入力する入力手段と、
    文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、
    言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、
    前記文書データに対し単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、
    検索の際に用いる索引情報記憶する全文索引記憶手段と、
    各種情報を登録する登録処理手段と、
    前記全文索引記憶手段に記憶された索引情報を検索する検索処理手段と、を有し、
    前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有し、
    前記登録処理手段は、
    前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する手段と、
    前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する手段と、
    前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と共に索引情報として前記全文索引記憶手段に登録する手段と、を有し、
    前記検索処理手段は、
    前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索することを特徴とする全文検索装置。
  2. 文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し、単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報を記憶する全文索引記憶手段と、を有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置で行う方法であって、
    前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する工程と、
    前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する工程と、
    前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し、表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と、共に索引情報として前記全文索引記憶手段に登録する工程と、
    前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する工程と、を前記全文検索装置が行うことを特徴とする方法。
  3. 文書データと該文書データの言語情報とを入力する入力手段と、文書データと該文書データの言語情報とを記憶する文書データ記憶手段と、言語情報ごとに文書データの件数を記憶する言語別件数記憶手段と、前記文書データに対し単語分割処理と表記正規化処理とを行い、前記文書データを索引単位に分割する分割処理手段と、検索の際に用いる索引情報記憶する全文索引記憶手段とを有し、前記分割処理手段は、言語情報毎に設けられた複数の言語用分割処理手段を有する全文検索装置におい実行されるプログラムであって、
    前記入力手段から入力された文書データと言語情報とを、その文書データを示す文書識別情報と共に前記文書データ記憶手段に登録する処理と、
    前記入力手段から入力された言語情報に対応する文書データの件数を増加させ前記言語別件数記憶手段に登録する処理と、
    前記入力手段から入力された言語情報に対応する言語用分割処理手段を用いて、前記入力手段から入力された文書データを索引単位に分割し表記正規化処理後の表記が異なる索引単位を、当該文書データ中での出現位置情報と、当該文書データの文書識別情報と共に索引情報として前記全文索引記憶手段に登録する処理と、
    前記言語別件数記憶手段に記憶されている言語情報に対応する言語用分割処理手段のみを用いて、前記入力手段から入力される検索文字列を索引単位に分割し、該分割して得られる複数の正規化検索文字列を用いて検索式を生成し、該生成した検索式を用いて前記全文索引記憶手段に記憶された索引情報を検索する処理と、をコンピュータに実行させることを特徴とするプログラム。
  4. 請求項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003168375A 2003-06-12 2003-06-12 全文検索装置、方法、プログラム及び記録媒体 Expired - Fee Related JP4262529B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003168375A JP4262529B2 (ja) 2003-06-12 2003-06-12 全文検索装置、方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003168375A JP4262529B2 (ja) 2003-06-12 2003-06-12 全文検索装置、方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2005004545A JP2005004545A (ja) 2005-01-06
JP4262529B2 true JP4262529B2 (ja) 2009-05-13

Family

ID=34093891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003168375A Expired - Fee Related JP4262529B2 (ja) 2003-06-12 2003-06-12 全文検索装置、方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4262529B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215992A (ja) * 2011-03-31 2012-11-08 Hammock:Kk 情報共有・活用システム

Also Published As

Publication number Publication date
JP2005004545A (ja) 2005-01-06

Similar Documents

Publication Publication Date Title
Ma et al. A bottom-up merging algorithm for Chinese unknown word extraction
US20070011132A1 (en) Named entity translation
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JPH0724056B2 (ja) コンピュータによる形態論的テキスト解析方法
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
Dahab et al. A comparative study on Arabic stemmers
JP2011118689A (ja) 検索方法及びシステム
JP3596210B2 (ja) 関連語辞書作成装置
Jabbar et al. An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Silberztein Text indexation with INTEX
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
Al-Taani et al. Searching concepts and keywords in the Holy Quran
Jolly et al. Anatomizing lexicon with natural language Tokenizer Toolkit 3
JPH1074207A (ja) 情報検索装置及び情報検索方法
Bessou et al. An accuracy-enhanced stemming algorithm for Arabic information retrieval
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP2001034630A (ja) 文書ベース検索システム、およびその方法
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JP5633844B2 (ja) 言い換え関係集合取得装置、言い換え関係集合取得方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees