JP2007179505A - 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体 - Google Patents

検索装置、検索システム、検索方法、検索プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2007179505A
JP2007179505A JP2005380471A JP2005380471A JP2007179505A JP 2007179505 A JP2007179505 A JP 2007179505A JP 2005380471 A JP2005380471 A JP 2005380471A JP 2005380471 A JP2005380471 A JP 2005380471A JP 2007179505 A JP2007179505 A JP 2007179505A
Authority
JP
Japan
Prior art keywords
search
character string
document
character
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005380471A
Other languages
English (en)
Inventor
Shiro Horibe
史郎 堀部
Tetsuya Ikeda
哲也 池田
Takuya Hiraoka
卓也 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005380471A priority Critical patent/JP2007179505A/ja
Publication of JP2007179505A publication Critical patent/JP2007179505A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索結果として得られた文書における検索文字列またはそれに該当する文字列の正確な位置を求めることができないという問題点があった。
【解決手段】入力部14より入力された検索文字列に対し前処理部16で正規化処理を施し、前記正規化処理が施された検索文字列により検索処理を実行する。そして、検索された文書において、前記検索文字列またそれに該当する文字列の最初の文字の位置情報と、前記検索文字列またはそれに該当する文字列の最後の文字の位置情報を取得するものである。
【選択図】図1

Description

本発明は、検索装置、検索システム、検索方法、検索プログラムおよび記録媒体に係り、より詳細には検索処理結果を閲覧しやすくする検索装置、検索システム、検索プログラムおよび記録媒体に係る。
登録された文書群から必要な文書を検索する検索技術において、検索された文書中の検索文字列に該当する部分を強調表示させることは、以前から知られている表示方法である。この表示方法によれば、検索された文書をそのまま表示するのに比べ、検索文字列の該当箇所を強調して表示するので、ユーザは、文書内の該当箇所を素早く認知できる。
また、検索結果を電子的に閲覧するのであれば、検索文字列の該当箇所にリンクを挿入することも可能である。例えば、同一文書内の次の該当箇所へのリンクを貼ったり、別文書の該当箇所へリンクを貼ることで、次の該当箇所に移動するNEXTボタンのようなものを用意せずとも該当箇所自体をクリックすることで該当箇所を順々に閲覧することが可能となる。このように、検索結果の文書における検索文字列の位置情報は非常に有用である。
通常の検索処理では、検索結果の文書における検索文字列の位置情報の取得は容易である。以下に位置情報取得の概略を述べる。
まず、検索文字列が与えられると、その検索文字列を索引語単位である部分文字列に分割する。そして、分割された部分文字列と一致する索引語を含む文書と、その文書内における索引語の開始位置とを索引から取得する。ここで取得された部分文字列(すなわち該当する索引語)の開始位置と、部分文字列(すなわち該当する索引語)の長さに加えて終了位置を求める。検索文字列全体の出現位置は、検索文字列の先頭の部分文字列の開始位置と、末尾の部分文字列の終了位置から求めることができる。
このような検索技術に関する従来文献として、例えば、次の文献があげられる。
特開平10−269233号公報(特許文献1)には、検索結果の文書情報を表示する際、文書中の検索条件に合致した箇所を強調表示する文書データベースの検索結果表示方法及び装置が開示されている。
特開2004−326216号公報(特許文献2)には、複数の検索キーワードの検索に貢献した度合いを示す特徴量に応じて、文書中に含まれる各検索キーワードの表示方法を設定し、その表示方法に基づいて各検索キーワードを他の部分と異なるように強調表示できる文書検索装置が開示されている。
しかしながら、正規化された文書から作成された索引を使って検索する場合には、検索文字列の位置情報の取得は容易ではない。なぜならば、索引語の開始位置と、索引語の長さからでは、検索文字列の正確な終了位置が求められない場合があるからである。
例えば索引語「スパゲティ」に文字列「スパゲティ」と「スパゲッティー」を割り当てた場合に、「このスパゲッティーはとてもおいしい。」という文書内での「スパゲティ」の位置を考える。このとき、この文書における索引語の開始位置である「3文字目」という位置情報と索引語の「スパゲティ」から検索文字列の終了位置を取得しようとした場合、「この“スパゲッテ”ィーはとてもおいしい。」のように誤った終了位置を示してしまう。
そのため、検索文字列を含む文書を解析して、どこまでが「スパゲティ」に対応する文字列かを調べる必要がある。しかし、この処理には時間がかかる上に、誤った解析結果を返す可能性もある。
特開平10−269233号公報 特開2004−326216号公報
以上に述べたように、検索文字列に該当する文字列の文書内における位置を把握することは有用であるが、入力された検索文字列またはそれに該当する文字列の正確な位置を求めることができないという問題点がある。
本発明は、このような問題点を鑑みて、これらを解決すべくなされたものであり、検索文字列またはそれに該当する文字列の正確な位置を求めることが可能であり、かつ、文字列の正確な位置を利用して、検索文字列と部分文字列の位置関係や、正規化による文字列の変更を考慮した数値を求める検索装置、検索システム、検索プログラム及び記憶媒体を提供することを目的とするものである。
上記目的を達成するために、本発明の検索装置は次の如き構成を採用した。
本発明の検索装置は、検索対象となる複数の文書が格納されているデータベースを有し、該データベースに対して検索を行う検索装置において、検索文字列を含む検索要求が入力される入力手段と、入力された検索文字列に正規化処理を施す前処理手段と、前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索手段と、を有し、前記検索手段は、当該検索手段により検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得することを特徴とする構成とすることができる。
これにより、検索された文書における検索文字列の正確な位置を求めることができ、検索文字列の強調処理やリンクの付与などを容易にすることが可能な検索装置を提供することができる。
また、本発明の検索装置は、検索対象となる複数の文書が格納されているデータベースを有し、該データベースに対して検索を行う検索装置において、複数の部分文字列からなる検索文字列を含む検索要求が入力される入力手段と、入力された前記複数の部分文字列からなる検索文字列に正規化処理を施し、正規化処理を施された前記複数の部分文字列からなる検索文字列を、部分文字列に分割する前処理手段と、前記部分文字列により前記データベースでの検索処理を実行する検索手段と、当該検索手段により検索された文書における前記部分文字列の位置関係を取得する後処理手段と、を有し、前記検索手段は、当該検索手段により検索された文書において、前記部分文字列の最初の文字の位置情報と、前記部分文字列の最後の文字の位置情報を取得し、前記後処理手段は、前記検索手段により取得した前記部分文字列の最初の文字の位置情報と、前記部分文字列の最後の文字の位置情報と、分割前の前記複数の部分文字列からなる検索文字列における前記部分文字列の位置関係と、に基づき、当該検索手段により検索された文書における前記部分文字列の位置関係を取得することを特徴とする構成とすることができる。
これにより、検索された文書における検索文字列の正確な位置と、検索された文書における部分文字列の位置関係とを求めることができ、検索文字列や部分文字列に対する強調処理やリンクの付与などを容易にすることが可能な検索装置を提供することができる。
また、上記目的を達成するために、本発明の検索装置は、さらに、前記後処理手段は、前記検索手段により検索された文書における複数の前記部分文字列との前記検索文字列と、の差異を数値として取得することを特徴とする構成とすることができる。
これにより、前記数値に応じて検索文字列の強調表現を変更したり、該当文書の一覧表示をする際に、前記数値に応じて表示順を変更するなどの編集処理が容易となり、ユーザにとって検索結果を閲覧しやすい表示とすることが可能な検索装置を提供することができる。
また、上記目的を達成するために、本発明の検索装置は、前記後処理手段は、前記部分文字列と、前記検索手段により検索された文書に含まれる前記部分文字列に該当する文字列との差異を文字列ごとに数値として取得することを特徴とするとする構成とすることができる。
これにより、前記数値に応じて検索文字列の強調表現を変更したり、該当文書の一覧表示をする際に、前記数値に応じて表示順を変更するなどの編集処理が容易となり、ユーザにとって検索結果を閲覧しやすい表示とすることが可能な検索装置を提供することができる。
また、本発明の検索システムは、検索サーバと検索クライアントからなる検索システムにおいて、前記検索サーバは、検索対象となる複数の文書が格納されているデータベースと、前記検索クライアントから送信された、検索文字列を含む検索要求を受信する受信手段と、前記受信手段により受信された検索文字列に正規化処理を施す前処理手段と、前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索手段と、前記検索手段により検索された結果を前記検索クライアントへ送信する送信手段と、を有し、前記検索クライアントは、検索文字列を含む検索要求が入力される入力手段と、前記検索サーバに前記検索文字列を含む検索要求を送信する送信手段と、前記検索サーバから送信された前記検索手段により検索された結果を受信する受信手段と、前記受信手段により受信された前記検索手段により検索された結果を出力する出力手段と、を有し、前記検索サーバにおいて、前記検索手段は、当該検索手段により検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得することを特徴とする構成とすることができる。
これにより、検索された文書における検索文字列の正確な位置を求めることができ、検索文字列の強調処理やリンクの付与などを容易にすることが可能な検索システムを提供することができる。
また、本発明の検索方法は、検索対象となる複数の文書が格納されているデータベースを有し、該データベースに対して検索を行う検索装置における検索方法において、
検索文字列を含む検索要求が入力される入力ステップと、入力された検索文字列に正規化処理を施す前処理ステップと、前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索ステップと、を有し、前記検索ステップでは、当該検索ステップにより検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得することを特徴とする構成とすることができる。
これにより、検索された文書における検索文字列の正確な位置を求めることができ、検索文字列の強調処理やリンクの付与などを容易にすることが可能な検索方法を提供することができる。
また、本発明の検索プログラムは、検索対象となる複数の文書が格納されているデータベースが記憶された記憶装置と、演算処理装置を有するコンピュータにおいて実行される検索プログラムであって、前記コンピュータに、検索文字列を含む検索要求が入力される入力手順と、入力された検索文字列に正規化処理を施す前処理手順と、前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索手順と、を実行させ、前記検索手順では、当該検索手順により検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得するようにしたことを特徴とする構成とすることができる。
これにより、検索された文書における検索文字列の正確な位置を求めることができ、検索文字列の強調処理やリンクの付与などを容易にすることが可能な検索プログラムを提供することができる。
また、本発明の記録媒体は、上記検索プログラムを記録したコンピュータ読取可能な記録媒体である。
本発明によれば、検索された文書における検索文字列の正確な位置を求めることができ、検索文字列の強調処理やリンクの付与などを容易にすることができる。
以下、本発明の実施例を図面に基づいて説明する。
本発明の検索装置、検索システム、検索方法、検索プログラムおよび記録媒体は、検索された文書における検索文字列またはそれに該当する文字列の最初の文字の位置情報と、最後の文字の位置情報を求めることにより、検索された文書における検索文字列の正確な出現位置を求めるものである。
図1は、本発明の検索装置10の機能ブロック図の例である。
検索装置10は、データベース12、入力部14、前処理部15、検索部16、後処理部17、編集部18および出力部19を有するものである。
検索装置10では、入力部14から入力された検索要求に基づき、データベース12の検索処理を実行させ、その結果を出力部18より出力するものである。ここで本実施例において、検索要求とは、複数の部分文字列からなる検索文字列を含むものである。
データベース12は、検索対象となる文書と、前記文書を検索するための索引とが格納されている。この索引は、データベース12の検索処理に用いられるものであり、索引語を含む文書の一覧を保持している。
入力部14は、ユーザが検索要求を入力するためのユーザインターフェイスである。入力部14は、例えばキーボードやディスプレイのタッチパネルであったり、またはマイクおよび音声認識システムである。ここで入力部14は、検索装置10内に配設されていてもよいし、適切な接続手段により検索装置10の外部から検索装置10へ接続されていても良い。
前処理部15は、入力された検索要求に含まれる検索文字列に正規化処理を施す。そして、正規化処理の施された検索文字列を、索引における索引語単位の部分文字列に分割するための解析を行う。索引語とは、データベース12内に存在する文字から作成されるものであり、索引語単位とは、索引語の作成される単位のことである。本実施例における索引語は、文書データを単語単位に分割し、その単語を索引語単位としているが、文字列をN文字の文字列として区切るN−gram方式により作成された索引語を索引語単位としてもよい。また、検索装置10には図示しない記憶手段が配設されており、前記記憶手段には、検索文字列を部分文字列に分割する際に、各部分文字列が検索文字列の何文字目から何文字目に対応しているかを示す位置情報や、各部分文字列が検索文字列に含まれる複数の部分文字列のうち、それぞれ何番目の部分文字列であるかを示す位置情報などが記憶されている。
検索部16は、複数の部分文字列からなる検索文字列を受け取り、この検索文字列に含まれる部分文字列によりデータベース12を検索する。そして、その結果として、部分文字列を含む文書と、その文書番号と、その文書における部分文字列の開始位置と終了位置とを取得する。ここで部分文字列の開始位置とは、検索された文書における部分文字列の最初の文字の位置情報を示し、部分文字列の終了位置とは、検索された文書における部分文字列の最後の文字の位置情報を示すものである。
後処理部17は、検索部16で取得された文書のうち、各部分文字列が、分割前の検索文字列と同様の順番に、かつ隣りあった位置にある文書を選択する。そして後処理部17は、選択された文書における検索文字列または検索文字列に該当する文字列の開始位置と終了位置とを取得する。ここで検索文字列の開始位置とは、検索された文書における検索文字列の最初の文字の位置情報を示し、検索文字列の終了位置とは、検索された文書における検索文字列の最後の文字の位置情報を示すものである。
編集部18は、検索文字列または検索文字列に該当する文字列を強調表示させたり、検索文字列を含む次の該当文書に移動できるように、その位置にリンクを付けるなど、ユーザにとって閲覧しやすい状態に検索処理結果を編集する。
出力部19は、検索処理によって得られた検索結果をユーザが閲覧可能に表示するユーザインターフェイスである。出力部19は、例えばディスプレイやスピーカなどである。ここで、出力部19は、検索装置10内に配設されていても良いし、適切な接続手段により検索装置10の外部から検索装置10へ接続されていても良い。
次に、実施例1における検索処理について具体例をあげて説明する。図2は、実施例1の検索処理を説明するフローチャートである。ここでは、3つ部分文字列「スパゲッティー」「ミート」「ソース」からなる検索文字列「スパゲッティーミートソース」について検索処理を実行する。
ユーザは、入力部14より、検索文字列「スパゲッティーミートソース」を含む検索要求を入力する(S210)。ここで入力された検索文字列「スパゲッティミートソース」は、前処理部15により正規化処理を施される(S220)正規化された検索文字列は、「スパゲティミートソース」となる。
次に、前処理部15は、正規化された検索文字列「スパゲティミートソース」を索引語単位の部分文字列に分割するために解析する(S230)。本実施例では、索引語単位は単語単位であり、正規化された検索文字列「スパゲティミートソース」は、前から順に「スパゲティ」「ミート」「ソース」なる3つの部分文字列に分割される。
検索部16は、この3つの部分文字列により、データベース12を検索し、各部分文字列またはそれに該当する文字列が含まれる文書と、この文書の文書番号と、この文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を取得する(S240)。ここで、この検索処理によって取得された文書の文書番号と文書内容を表1に示す。そして、検索部16により取得された文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を表2に示す。
Figure 2007179505
Figure 2007179505
後処理部17は、検索部16により取得された文書のうち、すべての部分文字列またはそれに該当する文字列を含む文書を選択する(S250)。すなわち、ここで選択される文書は、文書番号1、文書番号2、文書番号3、文書番号4および文書番号5の文書が選択される。次に、後処理部17は、選択された各文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を取得する。ここで、選択された文書の文書番号と、各文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を示したものが表3である。
Figure 2007179505
ここで後処理部17は、選択された文書のうち、この文書に含まれる各部分文字列またはそれに該当する文字列が、分割前の検索文字列と同じ順番に、かつ隣り合った位置にある文書を選択する。
この選択を行うに当たり、後処理部17は、表3に示す各部分文字列またはそれに該当する文字列の開始位置と終了位置から、各部分文字列が隣り合っているかどうかを判断する。表3によれば、例えば文書番号1の文書においては、部分文字列「スパゲティ」の終了位置が7文字目となっており、部分文字列「ミート」の開始位置が8文字目となっている。そして、部分文字列「ミート」の終了位置が10文字目となっており、部分文字列「ソース」の開始位置が11文字目となっている。これにより、後処理部17は、文書番号1の文書において、部分文字列「スパゲティ」と部分文字列「ミート」と部分文字列「ソース」が隣り合った位置にあると判断することができる。
さらに後処理部17は、各部分文字列が検索文字列に含まれる複数の部分文字列のうち、それぞれ何番目の部分文字列であるかを示す位置情報に基づき、各部分文字列またはそれに対応する文字列が、分割前の検索文字列と同じ順番であるかどうかを判断する。尚、この位置情報は、前述したように検索装置10内に配設された図示しない記憶手段に記憶されている。文書番号1の文書では、各部分文字列「スパゲティ」「ミート」「ソース」は分割前の検索文字列と同じ順番である。
よって後処理部17は、文書番号1の文書を、この文書に含まれる各部分文字列またはそれに該当する文字列が、分割前の検索文字列と同じ順番に、かつ隣り合った位置にあるものと判断し、文書番号1の文書を選択する。後処理部17は、同様の処理により文書番号2の文書も選択する。ここで選択された各文書の文書番号と、前記各文書における部分文字列またはそれに該当する文字列の開始位置と終了位置を表4に示す。
Figure 2007179505
さらに後処理部17は、ここで選択された文書において、この文書における検索文字列全体としての開始位置と終了位置を取得する。ここで選択された文書における検索文字列全体としての開始位置とは、この文書における1番目の部分文字列の最初の文字の位置である。同様に、選択された文書における検索文字列全体としての終了位置は、この文書における最終番目の部分文字列の最後の文字の位置である。
表4に示すように、文書番号1の文書において、1番目の部分文字列「スパゲティ」の最初の文字の位置が3文字目であり、最終番目の部分文字列である3番目の部分文字列「ソース」の最後の文字の位置が13文字目である。よって、文書番号1の文書における検索文字列全体としての開始位置は3文字目、終了位置は13文字目となる。
同様に、文書番号2の文書について説明する。文書番号2の文書では、後処理部17は、部分文字列「スパゲティ」に該当する文字列「スパゲッティー」の開始位置と終了位置を取得している。このときの検索文字列全体とは、文字列「スパゲッティー」の最初の文字から始まり、最終番目の部分文字列である3番目の部分文字列「ソース」の最後の文字で終わる文字列を意味する。よって、検索文字列全体の開始位置が3文字目、終了位置が15文字目となる。ここで、選択された各文書の文書番号と、前記各文書における検索文字列またはそれに該当する文字列の開始位置と終了位置を表5に示す。
Figure 2007179505
このようにして、後処理部17により検索された文書における検索文字列の出現位置を取得すると、編集部18は、この文書おける検索文字列またはそれに該当する文字列を強調表示する編集処理を行う(S260)。表6には、編集部18により検索文字列またはそれに該当する文字列を強調表示する処理が施された文書の内容が示されている。ここで示される強調表示は、具体的には文書中の検索文字列を斜体で表示させるものであるが、強調表示の方法はこれに限定されるものではなく、ユーザにとって認識しやすい表示方法であれば良い。
Figure 2007179505
また、検索処理結果が電子的に閲覧される場合、編集部18は強調表示に係る編集処理だけでなく、検索文字列またはそれに該当する文字列にリンクを付け、この検索文字列またはそれに該当する文字列をクリックすると、現在閲覧している検索された文書から、次の該当文書へ移動できるようにする編集処理などを行ってもよい。
表6に示されるような、編集処理を施された文書は、検索処理の結果として、出力部19により出力される(S270)。これにより検索装置10における検索処理を終了する。
このように、本発明の実施例1の検索装置においては、検索された文書における検索文字列の正確な位置と、検索された文書における部分文字列の位置関係とを求めることができ、検索文字列や部分文字列に対する強調表示処理やリンクの付与などを容易にすることができる。また、強調表示処理やリンクの付与を行うことによって、検索処理の結果をユーザにとって閲覧しやすい状態で表示することができる。
以下に、本発明の検索装置10における実施例2について説明する。
実施例2の検索装置10は、実施例1で説明した検索装置10と同様の構成であるので、ここでは検索装置の構成に係る説明は省略する。また、実施例2における検索処理では、図2のS250における処理のみが実施例1と異なるものであるから、本実施例において図2のS250で実行される処理について以下に説明する。
S250において、後処理部17は、S240において検索部16により取得された文書(表1参照)のうち、各部分文字列またはそれに該当する文字列のいずれかを含む文書を選択する。ここではS240で取得されたすべての文書が該当する。次に後処理部17は、選択された各文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を取得する。ここで、選択された文書の文書番号と、各文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を示したものが表7である。
Figure 2007179505
ここで後処理部17は、選択された文書に含まれる各部分文字列またはそれに該当する文字列が、分割前の検索文字列と同じ順番に、かつ隣り合った位置にあるとき、それぞれの部分文字列またはそれに該当する文字列を結合させる。すなわち、文書番号2の文書であれば、この文書に含まれる部分文字列またはこれに該当する文字列は「スパゲッティー」、「ミート」、「ソース」であり、それぞれが分割前の検索文字列と同じ順番に、かつ隣り合った位置にあるので、後処理部17は、これらを結合して「スパゲッティーミートソース」を得る。
また、同様に文書番号6の文書の場合を説明すれば、文書番号6の文書に含まれる部分文字列またはそれに該当する文字列は、「ミート」と「ソース」である。これらはそれぞれが分割前の検索文字列と同じ順番で、かつ隣り合って位置しているので、後処理部17はここで「ミートソース」を得る。こられについて文書ごとに示したものが表8である。
Figure 2007179505
本実施例においては、このようにして得られた部分文字列またはそれに該当する文字列を結合させた文字列を、検索文字列またはそれに該当する文字列となる。
尚本実施例においても、各文書における各部分文字列またはそれに該当する文字列が分割前の検索文字列と同じ順番で、かつ隣り合って位置しているかどうかは、実施例1で説明したようにして判断される。
さらに後処理部17は、選択された文書における検索文字列またはそれに該当する文字列全体としての開始位置と終了位置を取得してS250の処理を終了する。
S260以下の処理は、実施例1における処理と同様であるので、ここでの説明は省略する。
このように、本発明の実施例2における検索装置では、検索された文書において、検索文字列またはそれに該当する文字列の一部の文字列を含んでいれば、検索処理結果として出力されるため、より幅広い検索処理を実行することができる。また、検索された文書において、検索文字列またはそれに該当する文字列における一部の文字列の正確な位置を求めることができる。さらに、検索文字列や部分文字列に対する強調表示処理やリンクの付与などを容易にすることができ、これらの処理を行うことによって、検索処理の結果をユーザにとって閲覧しやすい状態で表示することができる。
以下に、本発明の検索装置10における実施例3について説明する。
実施例3の検索装置10は、実施例1で説明した検索装置10と同様の構成であるので、ここでは検索装置10の構成に係る説明を省略する。また、実施例3における検索処理では、図2のS250とS260における処理が実施例1と異なるものである。よって、本実施例において図2のS250とS260で実行される処理について以下に説明する。
S250において、後処理部17は、S240で検索部16により取得された文書(表1参照)のうち、各部分文字列またはそれに該当する文字列のいずれかを含む文書を選択し、それぞれの文書番号を取得する。ここではS240で取得されたすべて文書が選択される。次に、後処理部17は、選択された各文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を取得する(表7参照)。
さらに、後処理部17は、選択された文書に含まれる、検索結果として取得された各部分文字列またはそれに該当する文字列の系列と、検索文字列を索引語単位に分割して得られた複数の部分文字列の系列との類似度を取得する。
ここでいう系列とは、文書に含まれる部分文字列の数および並び順を示している。また、類似度とは、例えば編集距離を用いても良いし、独自の定義をもって類似度としても良い。ここで言う編集距離とは、ある系列からある系列へ変換するために必要な操作数(挿入、削除、置換)を距離とみなしたものであり、文字列間の類似度を測るためによく使われている。
本実施例では、独自に定義した類似度を用いている。すなわち本実施例での類似度は、検索結果として取得された各部分文字列またはそれに該当する文字列の系列と、検索文字列を索引語単位に分割して得られた複数の部分文字列の系列との差異を示す距離で表される。ここでは、距離は数値であり、距離が小さいほど、すなわち類似度の数値が小さいほど、検索結果として取得された各部分文字列またはそれに該当する文字列の系列と、検索文字列を索引語単位に分割して得られた複数の部分文字列の系列との一致度が高いことを意味する。
本実施例では、各部分文字列の並び順の入れ替えを距離1、部分文字列間の余計な文字列の削除も距離1、部分文字列の追加を距離2とした。
例えば、文書番号5の文書では、検索文字列を索引語単位に分割して得られた3つの部分文字列「スパゲティ」「ミート」「ソース」と比べて、検索結果として取得された各部分文字列「スパゲティ」「ミート」「ソース」では、「スパゲティ」と「ミート」、「ミート」と「ソース」の間にそれぞれ余計な文字列が存在している。よって、ここで系列を一致させるためには、これらの2箇所に存在する余計な文字列を削除する必要がある。すなわち、2回の削除操作が必要であるから、ここでの距離は1+1=2となる。
文書番号7の文書の場合についても同様に説明すれば、この文書に含まれる部分文字列は「ミート」のみであり、検索文字列を索引語単位に分割して得られた3つの部分文字列「スパゲティ」「ミート」「ソース」と比べて、2つの部分文字列「スパゲティ」、「ソース」が不足している。よって、系列を一致させるためには、これら2つの部分文字列を追加する必要がある。すなわち、2回の部分文字列の追加操作が必要であるから、ここでの距離は2+2=4となる。
後処理部17は、このようにして類似度を取得している。この類似度を文書ごとに示したものが表9である。
Figure 2007179505
S250において、後処理部17が、検索された文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置、そして上で説明した類似度を取得すると、編集部18は、S260において、検索された文書における各部分文字列またはそれに該当する文字列に対し、類似度の数値に応じた強調表示をさせる処理を行う。その具体例を示すものが表10である。
Figure 2007179505
表10では、類度度を示す数値が最も大きいとき、すなわち検索結果として取得された文書に含まれる検索文字列またはそれに該当する文字列と、検索文字列との一致度が低いとき、この検索文字列またはそれに該当する文字列を表示する文字のフォントを<font size=“+1”>とした。そして、類似度を示す数値が小さくなるほど、すなわち検索結果として取得された文書に含まれる検索文字列またはそれに該当する文字列と、検索文字列との一致度が高くなるほど、前記検索文字列またはそれに該当する文字列を表示する文字のフォントを大きくした。
このように、検索結果として得られた検索文字列またはそれに該当する文字列と検索文字列との類似度して取得し、それに基づき編集処理を行うことにより、検索処理の結果をユーザにとって閲覧しやすい状態で表示することができる。
また、本実施例では検索文字列に対する検索結果を数値で表すため、例えば自由書式で書かれた検索文字列で分類することもできる。自由書式のデータでは、表記のゆれや誤記なども含まれるため、検索文字列と完全一致するデータだけを分類対象とすることに問題があった。本実施例によれば、検索文字列と一致しないデータであっても、数値によっては分類対象に加えることができる。
以下に、本発明における実施例3について説明する。
実施例3の検索装置10は、実施例1で説明した検索装置10と同様の構成であるので、ここでは検索装置10の構成に係る説明を省略する。また、実施例4における検索処理では、図2のS250とS260における処理が実施例1と異なるものであり、S260における処理は実施例3に説明した処理と同様である。よって、本実施例において図2のS250で実行される処理について以下に説明する。
S250において、後処理部17は、検索部16により取得された文書(表1参照)のうち、各部分文字列またはそれに該当する文字列のいずれかを含む文書を選択し、それぞれの文書番号を取得する。ここではS240で取得されたすべて文書が選択される。次に、後処理部17は、選択された各文書における各部分文字列またはそれに該当する文字列の開始位置と終了位置を取得する(表7参照)。
さらに、後処理部17は、選択された文書に含まれる、検索結果として取得された各部分文字列またはそれに該当する文字列と、検索文字列を索引語単位で分割することにより得られた各部分文字列の類似度を文字列ごとに取得する。
本実施例では、類似度として編集距離を用いている。例えば、文字列「スパゲッティー」と文字列「スパゲティ」について説明すると、これら2つの文字列を一致させようとしたとき、文字列「スパゲッティー」の4文字目「ッ」と、7文字目「ー」を削除する必要がある。すなわち2回の削除操作が必要であるから、ここでの距離は1+1=2となる。
このようにして取得した類似度を文書ごとに示したものが表11である。
Figure 2007179505
ここで、文書番号1の文書と、文書番号2の文書においては、各部分文字列のまたはそれに該当する文字列が、分割前の検索文字列と同じ順に、かつ隣り合った位置にある。しかしながら、文書番号1の文書では、検索結果として取得された部分文字列「スパゲティ」は索引語単位に分割される前の部分文字列「スパゲッティー」と異なっている。
それに対し、文書番号2の文書では、検索結果として取得された部分文字列に該当する文字列は「スパゲッティー」であり、索引語単位に分割される前の部分文字列、すなわちユーザが入力した元の検索文字列に含まれる部分文字列「スパゲッティー」そのものである。このとき、後処理部17は、類似度を0とし、完全一致と判断する。
すなわち後処理部17は、検索結果として得られた文書に含まれる部分文字列またはそれに該当する文字列が、索引語単位に分割される前の部分文字列、すなわちユーザが入力した元の部分文字列と一致していると判断した場合、その結果を類似度に数値として反映させる。
後処理部17では、このようにして類似度を取得することで、元の検索文字列に含まれる部分文字列と、検索結果として取得された部分文字列との差異を数値として表すことができる。
S260では、編集部18が、この類似度の数値に応じて実施例3と同様の処理を行う。これにより、検索処理の結果をユーザにとって閲覧しやすい状態で表示することができる。
以下に本発明の検索システムについて図面を参照して説明する。図3は本発明の検索システム40の機能ブロック図の例である。図3において、実施例1と同様の機能を有するもの、同様の処理を実行するものに関しては、図1と同様の符号をつけ、その説明を省略する。
検索システム40は、検索クライアント20と検索サーバ30から構成されており、検索クライアント20と検索サーバ30はネットワークを介して接続されている。検索システム40では、検索クライアント20に入力された検索要求が検索サーバ30へ送信され、検索サーバ30は、この検索要求を受けて検索処理を実行し、その結果を検索クライアント20へ返すものである。
検索クライアント20は、入力部14、出力部19、送受信部42を有する。送受信部42は、検索サーバ30とのデータの送受信に用いられるものである。すなわち、入力部14より入力された検索文字列を含む検索要求を検索サーバ30へ送信し、検索サーバ30で実行されて検索サーバ30より送信されてきた検索処理の結果を受信する。
検索サーバ30は、データベース12と、前処理部15、検索部16、後処理部17、編集部18および送受信部43を有する。送受信部43は、検索クライアント20とのデータの送受信に用いられるものである。すなわち、検索クライアント20より送信された、検索文字列を含む検索要求を受信し、この検索要求を受けて実行した検索処理の結果を検索クライアント20へ送信する。
本実施例における検索処理について説明する。本実施例における検索処理は、実施例1と同様であり、図2を参照して説明することができる。
まず、S210において、検索クライアント20においてユーザが入力部14より検索文字列を含む検索要求を入力する。検索クライアント20は、この検索文字列を含む検索要求を送受信部42により検索サーバ30へ送信する。検索サーバ30は、送受信部43により検索要求を受信すると、その検索要求に含まれる検索文字列について、S220からS260の処理を実行する。そして、その結果を送受信部43より検索クライアント20に向けて送信する。S270において、検索クライアント20は、この結果を送受信部42により受信し、それを出力部19によりユーザが閲覧可能に出力する。
本実施例によれば、検索された文書における検索文字列の正確な出現位置と、検索された文書における部分文字列の位置関係とを求めることができ、検索文字列や部分文字列に対する強調処理やリンクの付与などを容易にすることが可能な検索装置を提供することができる。
本実施例の検索サーバ30で実行される処理は、実施例1で説明した処理だけでなく、上に記載したその他の実施例において実行される処理についても同様に実行することができる。
また、本発明の検索プログラムおよびその検索プログラムが記録されたコンピュータで読取可能な記録媒体について図4を参照して説明する。本発明の検索プログラムは、実施例1ないし実施例4に記載したすべての処理を実行させることが可能な検索プログラムである。
図4は、検索サーバ30のハードウェア構成図である。検索サーバ30は、CPU32、ハードディスク33、メモリ34、ネットワークコントロールユニット(以下NCU)35、表示部36、入力部37およびドライバ38により構成されている。
本発明の検索プログラムは、メモリ34に記録されていても良いし、記録媒体50に記録されていても良い。
ここで、CPU32は、メモリ34またはドライバ38を介して接続された記録媒体50に記録された本発明の検索プログラムを実行する。ハードディスク33は、その内部にデータベース12が格納されている。メモリ34は、本発明の検索プログラム以外に、検索サーバを機能させるためのプログラムや各種の設定値などが記録されている。NCU35は、検索クライアント20との通信手段として用いられるものであり、例えば一般の公衆回線や、LAN回線などに接続されている。表示部36はCPU32で実行された検索処理の結果を表示するものであり、入力部37はユーザが各種のデータを検索サーバ30に入力するためのものである。ドライバ38は、CPU32と外部に接続された記録媒体50の仲介を行うものである。
記録媒体50には本発明の検索プログラムが記録されていても良く、その場合CPU32は、ドライバ38を介して記録媒体50より検索プログラムを読み出して実行する。
尚ここで、記録媒体50は、例えばフロッピー(登録商標)ディスクや光磁気ディスクなどの記録媒体であっても良いし、CPU32において読取可能であればそれ以外のものであっても良い。
以上に述べたように、本発明によれば、検索された文書における検索文字列の正確な出現位置を求めることかできる。また、本発明によれば、検索された文書における部分文字列の出現位置を求めることができ、検索文字列や部分文字列に対する強調処理やリンクの付与などを容易にすることが可能となる。さらに本発明によれば、検索結果として取得された検索文字列またはそれに該当する文字列と、ユーザからに入力された検索文字列との類似度を求めることにより、検索処理後の一致度に応じた強調表示をさせることができ、さらにユーザにとって閲覧しやすい状態で検索処理の結果を表示させることが可能となる。
以上、各実施例に基づき本発明の説明を行ってきたが、上記実施例に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
本発明は、検索処理を行う検索装置、検索システム、検索方法、検索プログラムおよび記録媒体において応用可能である。
検索装置の機能ブロック図の例 実施例1の検索処理を説明するフローチャート 検索システムの機能ブロック図の例 検索サーバのハードウェア構成図の例
符号の説明
10 検索装置
12 データベース
14 入力部
15 前処理部
16 検索部
17 後処理部
18 編集部
19 出力部
20 検索クライアント
30 検索サーバ
40 検索システム
50 記録媒体

Claims (8)

  1. 検索対象となる複数の文書が格納されているデータベースを有し、該データベースに対して検索を行う検索装置において、
    検索文字列を含む検索要求が入力される入力手段と、
    入力された検索文字列に正規化処理を施す前処理手段と、
    前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索手段と、を有し、
    前記検索手段は、当該検索手段により検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得することを特徴とする検索装置。
  2. 検索対象となる複数の文書が格納されているデータベースを有し、該データベースに対して検索を行う検索装置において、
    複数の部分文字列からなる検索文字列を含む検索要求が入力される入力手段と、
    入力された前記複数の部分文字列からなる検索文字列に正規化処理を施し、正規化処理を施された前記複数の部分文字列からなる検索文字列を、部分文字列に分割する前処理手段と、
    前記部分文字列により前記データベースでの検索処理を実行する検索手段と、
    当該検索手段により検索された文書における前記部分文字列の位置関係を取得する後処理手段と、を有し、
    前記検索手段は、当該検索手段により検索された文書において、前記部分文字列の最初の文字の位置情報と、前記部分文字列の最後の文字の位置情報を取得し、
    前記後処理手段は、前記検索手段により取得した前記部分文字列の最初の文字の位置情報と、前記部分文字列の最後の文字の位置情報と、
    分割前の前記複数の部分文字列からなる検索文字列における前記部分文字列の位置関係と、に基づき、
    当該検索手段により検索された文書における前記部分文字列の位置関係を取得することを特徴とする検索装置。
  3. 前記後処理手段は、前記検索手段により検索された文書における複数の前記部分文字列と、前記検索文字列との差異を数値として取得することを特徴とする請求項2に記載の検索装置。
  4. 前記後処理手段は、前記部分文字列と、前記検索手段により検索された文書に含まれる前記部分文字列に該当する文字列との差異を文字列ごとに数値として取得することを特徴とする請求項2に記載の検索装置。
  5. 検索サーバと検索クライアントからなる検索システムにおいて、
    前記検索サーバは、検索対象となる複数の文書が格納されているデータベースと、
    前記検索クライアントから送信された、検索文字列を含む検索要求を受信する受信手段と、
    前記受信手段により受信された検索文字列に正規化処理を施す前処理手段と、
    前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索手段と、
    前記検索手段により検索された結果を前記検索クライアントへ送信する送信手段と、を有し、
    前記検索クライアントは、検索文字列を含む検索要求が入力される入力手段と、
    前記検索サーバに前記検索文字列を含む検索要求を送信する送信手段と、
    前記検索サーバから送信された前記検索手段により検索された結果を受信する受信手段と、
    前記受信手段により受信された前記検索手段により検索された結果を出力する出力手段と、を有し、
    前記検索サーバにおいて、前記検索手段は、当該検索手段により検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得することを特徴とする検索システム。
  6. 検索対象となる複数の文書が格納されているデータベースを有し、該データベースに対して検索を行う検索装置における検索方法において、
    検索文字列を含む検索要求が入力される入力ステップと、
    入力された検索文字列に正規化処理を施す前処理ステップと、
    前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索ステップと、を有し、
    前記検索ステップでは、当該検索ステップにより検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得することを特徴とする検索方法。
  7. 検索対象となる複数の文書が格納されているデータベースが記憶された記憶装置と、演算処理装置を有するコンピュータにおいて実行される検索プログラムであって、
    前記コンピュータに、
    検索文字列を含む検索要求が入力される入力手順と、
    入力された検索文字列に正規化処理を施す前処理手順と、
    前記正規化処理が施された検索文字列により前記データベースでの検索処理を実行する検索手順と、を実行させ、
    前記検索手順では、当該検索手順により検索された文書において、前記検索文字列の最初の文字の位置情報と、前記検索文字列の最後の文字の位置情報を取得するようにしたことを特徴とする検索プログラム。
  8. 請求項7に記載の検索プログラムを記録したコンピュータ読取可能な記録媒体。
JP2005380471A 2005-12-28 2005-12-28 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体 Pending JP2007179505A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005380471A JP2007179505A (ja) 2005-12-28 2005-12-28 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005380471A JP2007179505A (ja) 2005-12-28 2005-12-28 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2007179505A true JP2007179505A (ja) 2007-07-12

Family

ID=38304595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005380471A Pending JP2007179505A (ja) 2005-12-28 2005-12-28 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2007179505A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169128A1 (ja) * 2011-06-08 2012-12-13 株式会社 東芝 表記ゆれ検出装置及び表記ゆれ検出プログラム
JP2022161774A (ja) * 2021-04-09 2022-10-21 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169128A1 (ja) * 2011-06-08 2012-12-13 株式会社 東芝 表記ゆれ検出装置及び表記ゆれ検出プログラム
JP2012256197A (ja) * 2011-06-08 2012-12-27 Toshiba Corp 表記ゆれ検出装置及び表記ゆれ検出プログラム
CN103080937A (zh) * 2011-06-08 2013-05-01 株式会社东芝 表述不一致检测装置及表述不一致检测程序
US9128923B2 (en) 2011-06-08 2015-09-08 Kabushiki Kaisha Toshiba Orthographical variant detection apparatus and orthographical variant detection method
JP2022161774A (ja) * 2021-04-09 2022-10-21 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JP7224392B2 (ja) 2021-04-09 2023-02-17 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
JP5550669B2 (ja) 検索装置、検索方法およびプログラム
US8521727B2 (en) Search apparatus, search method, and computer readable medium
JP5315368B2 (ja) 文書処理装置
US20050097080A1 (en) System and method for automatically locating searched text in an image file
JP5910134B2 (ja) テキスト検索装置及びプログラム
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN112925882B (zh) 一种信息处理方法及装置
US9990444B2 (en) Apparatus and method for supporting visualization of connection relationship
JP2004348771A (ja) 技術文書検索装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP2007179505A (ja) 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2795317B2 (ja) 多段表処理方式
US10789245B2 (en) Semiconductor parts search method using last alphabet deletion algorithm
JP4416644B2 (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JP6034584B2 (ja) 特許調査支援装置、特許調査支援方法、およびプログラム
JP5428316B2 (ja) 識別子短縮表示プログラム,識別子短縮表示装置および識別子短縮表示方法
JP6753190B2 (ja) 文書検索装置及びプログラム
JP2008071311A (ja) 画像検索装置、画像検索方法、画像検索プログラム、及び、情報記憶媒体