JP2004318328A - 情報検索方法 - Google Patents
情報検索方法 Download PDFInfo
- Publication number
- JP2004318328A JP2004318328A JP2003109141A JP2003109141A JP2004318328A JP 2004318328 A JP2004318328 A JP 2004318328A JP 2003109141 A JP2003109141 A JP 2003109141A JP 2003109141 A JP2003109141 A JP 2003109141A JP 2004318328 A JP2004318328 A JP 2004318328A
- Authority
- JP
- Japan
- Prior art keywords
- search
- word information
- information
- document
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】操作性を向上させつつ、高精度で高速な検索を行うことが可能となる情報検索方法を提供する。
【解決手段】検索用データは、同じ意味を表すために複数の語を一定の基準で一つにまとめたグループ単語情報と、個々の単語を別に扱った個別単語情報を見出しとして、文書IDを含むものによって構成され、キーワードが入力されると、まず、そのキーワードに対するグループ単語情報および個別単語情報を取得する。次に、グループ単語情報に基づいて、検索用データを参照し、このグループ単語情報を見出しとする文書IDを取得するとともに、個別単語情報に基づいて、検索用データを参照し、この個別単語情報を見出しとする文書IDを取得する。検索キーワードの拡張の指定が拡張ありに指定されているときには、グループ単語情報に基づいた検索を重視し、検索キーワードの拡張の指定が拡張なしに指定されているときには、個別単語情報に基づいた検索を重視する。
【選択図】 図21
【解決手段】検索用データは、同じ意味を表すために複数の語を一定の基準で一つにまとめたグループ単語情報と、個々の単語を別に扱った個別単語情報を見出しとして、文書IDを含むものによって構成され、キーワードが入力されると、まず、そのキーワードに対するグループ単語情報および個別単語情報を取得する。次に、グループ単語情報に基づいて、検索用データを参照し、このグループ単語情報を見出しとする文書IDを取得するとともに、個別単語情報に基づいて、検索用データを参照し、この個別単語情報を見出しとする文書IDを取得する。検索キーワードの拡張の指定が拡張ありに指定されているときには、グループ単語情報に基づいた検索を重視し、検索キーワードの拡張の指定が拡張なしに指定されているときには、個別単語情報に基づいた検索を重視する。
【選択図】 図21
Description
【0001】
【発明の属する技術分野】
本発明は、複数の情報から目的の情報を検索する情報検索方法に関する。
【0002】
【従来の技術】
図43は、従来の第1の情報検索方法を説明するための図である。
【0003】
同図において、まず、検索者は検索条件を自然文によって指定する。検索クエリとして、例えば「乗用車の事故」が入力されると、入力された検索文字列に対して、形態素解析などの単語切り出し方法によって、キーワード抽出を行ない、「乗用車」および「事故」というキーワードが抽出される。次に、抽出したキーワードを基に検索条件を設定する。ここでは、[乗用車]AND[事故]という条件によって検索を行なう。あらかじめ登録されている検索対象文書に対して、この条件によって検索を行なう。検索の結果、文書ID=3「トラックと乗用車の事故現場」と文書ID=7「自動車事故の大半が乗用車による事故」が得られる。
【0004】
図44は、従来の第2の情報検索方法を説明するための図である。
【0005】
同図において、まず、検索者は検索条件を、キーワードの論理式等によって設定する。例えば、検索式として、以下の検索式を指定する。
([乗用車]OR[自動車]OR[車])AND([事故])
このとき、検索者は検索漏れが起きないように論理式を指定しなければいけない。また、どの単語を検索するか意味的に同じ単語を検索条件として指定していく必要がある。次に、あらかじめ登録されている検索対象文書に対して、前記検索条件によって検索を行なう。検索の結果、文書ID=2「自動車事故による被害者」、文書ID=3「トラックと乗用車の事故現場」、文書ID=7「自動車事故の大半が乗用車による事故」が得られる。
【0006】
図45は、従来の第3の情報検索方法を説明するための図である。
【0007】
同図において、まず、検索者は検索条件を自然文によって指定する。検索クエリとして、例えば「乗用車の事故」が入力されると、入力された検索文字列に対して、形態素解析などの単語切り出し方法によって、キーワード抽出を行ない、「乗用車」および「事故」というキーワードが抽出される。次に、抽出されたキーワードを基に、検索者の指示あるいは自動的に類義語や同義語などの情報を用いてキーワード拡張する。
【0008】
そして、拡張したキーワードを基に検索条件を設定する。ここでは、以下の検索条件に従って検索を実行する。
([乗用車]OR[車]OR[自動車]OR[自家用車]OR[バス]OR[トラック])AND([事故]OR[アクシデント])
あらかじめ登録されている検索対象文書に対して、この条件によって検索を行なう。検索の結果、文書ID1,2,3,4,5,7,9,10の文書が得られる。
【0009】
例えば、特許文献1および2などは、この第3の情報検索方法を用いて情報検索を行っている。
【0010】
【特許文献1】
特開平7−65013号公報
【特許文献2】
特開平8−255163号公報
【0011】
【発明が解決しようとする問題】
しかし、上記従来の第1の情報検索方法では、検索クエリ「乗用車の事故」に対して「自動車」や「アクシデント」で表記される検索結果を得ることができないので、検索漏れが多く、すべての検索結果を取得したい場合や、同義語や表記のゆれが多い単語を検索する場合に、満足する結果を得ることはできなかった。
【0012】
また、上記従来の第2の情報検索方法では、検索者自身が検索式を考えて設定しなければならないので、網羅的に検索したい場合は、複雑な検索式を自ら設定しなければならず、検索者の負担が増大し操作性において非常に使い勝手が悪かった。
【0013】
さらに、上記従来の第3の情報検索方法では、同義語や類義語などの情報を基にキーワードを拡張し、検索を行なうので、漏れの少ない検索結果を得ることができるものの、検索キーワードが増加するために検索速度が遅くなるという欠点があった。また、キーワードの拡張はシステム任せであるために、検索ノイズが多く発生する原因になっていた。
【0014】
本発明は、この点に着目してなされたものであり、操作性を向上させつつ、高精度で高速な検索を行うことが可能となる情報検索方法を提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するため、請求項1に記載の情報検索方法は、個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、該単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索ステップと、前記単語情報取得ステップによって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索ステップとを有することを特徴とする。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0017】
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る情報検索方法を適用した情報検索装置の概略構成を表すブロック図である。
【0018】
同図に示すように、本実施の形態の情報検索装置は、キーボードやファイル等の入力装置1と、装置全体の制御を司るCPU2と、ディスプレイなどの出力装置3と、メモリやハードディスクなどの記憶装置4とによって構成されている。
【0019】
登録時には、入力装置1から入力された登録文書は、記憶装置4上に展開された処理プログラム41により、CPU2で処理される。
【0020】
処理プログラム41は、文書の中から検索キーワードとなるキーワードを抽出し、同様に記憶装置4に記憶されている単語情報データ42を参照して、抽出したキーワードの単語情報を取得する。さらに、取得した単語情報を見出しとする検索用データ43に登録する。
【0021】
検索時には、入力装置1から入力された検索条件は、記憶装置4上に展開された処理プログラム41により、CPU2で処理される。
【0022】
処理プログラム41は、検索条件から検索キーワードを抽出し、同様に記憶装置4に記憶されている単語情報データ42を参照して、抽出キーワードの単語情報を取得する。単語情報を見出しとし、文書の情報や文書に含まれる単語の特徴を格納した検索用データ43から、入力装置1から入力された検索条件に合う文書を取得し、検索条件に対する類似性の付与や、最終的な結果とするかどうかの判断を行い、その結果を出力情報3に出力する。
【0023】
なお、本実施の形態の情報検索装置は、図1のような単体のコンピュータ上に構築する以外にも、図2のようなローカルなネットワーク環境上、および図3のようなインターネット環境上にも構築することができる。
【0024】
図4は、本実施の形態の情報検索装置が実行する文書登録処理の手順を示すフローチャートである。
【0025】
同図において、まず、ステップS1では、登録したい文書を指定する。指定する文書は、1文書でも複数文書でも構わない。
【0026】
次に、ステップS2では、ステップS1で指定した文書に対して固有の文書IDを付与する。
【0027】
図6は、文書ID付与処理を説明するための図である。
【0028】
同図において、ステップS1で指定された文書Aは、文書IDの使用の有無を管理している。この文書ID管理情報を参照することによって、文書ID=1〜10が割り当て済みということが分かり、まだ割り当てられていない文書ID=11を付与する。同時に、文書ID管理情報にもID=11が割り当て済みであるとする。これによって、システム内では文書Aは、文書ID=11の文書として扱うことができる。
【0029】
図4に戻り、ステップS3では、形態素解析処理などの文切り処理によって、文書内に登録するキーワードを抽出する。
【0030】
図7は、登録対象文書からキーワードを抽出する処理を説明するための図であり、登録対象文書Aの内容の「自動車の事故が多く起きる道路が…、」からキーワード抽出を行なう例が図示されている。
【0031】
同図において、まず、前記文に対して形態素解析などの単語切り出し処理を実行し形態素(単語)単位に分割する。その結果、単語切り出し結果で表される形態素(単語)の単位に分割される。次に、この形態素の中から、キーワードとなり得る単語を抽出する。キーワードとするかどうかを判断する方法は、自立語か否かでキーワードを判断する方法や、品詞によって判断する方法などの各種抽出方法があるが、本実施の形態では、自立語をキーワードとして抽出する方法を採用している。その結果、抽出キーワードにある形態素がキーワードとして抽出される。
【0032】
図4に戻り、ステップS4では、抽出した検索キーワードのグループ単語情報と個別単語情報を単語情報として取得する単語情報取得処理を実行する。
【0033】
図5は、このキーワードの単語情報取得処理の詳細な手順を示すフローチャートである。
【0034】
同図において、まず、ステップS11では、前記ステップS3で抽出したキーワードを入力する。したがって、図7の例では、「自動車」、「事故」、「多く(多い)」、「起きる」、「道路」がそれぞれキーワードとして入力され、これらのキーワードに基づいて単語情報取得処理がなされる。
【0035】
ステップS12では、それぞれのキーワードで単語情報データを検索する。
【0036】
図8は、単語情報データの一例を表した図である。
【0037】
多くの単語の場合、活用形や表記(ひらがな、カタカナ、漢字の違い)、表記のゆれ(送り仮名の違い)、同義語、類義語など、同じ意味を表すために複数の語が存在する。これらの語を一定の基準で一つにまとめた情報がグループ単語情報であり、個々の単語を別に扱ったものが個別単語情報である。
【0038】
本実施の形態では、単語情報データは、検索見出しとして個別単語情報を使用し、グループ単語情報を得ることができる構成になっている。例えば、この単語情報データによると、車、自動車、乗用車、自家用車、バス、トラック、カーなどの個別単語情報はすべて「車」というグループ単語情報で表現することができる。また、動詞、形容詞などは、未然、連用、終止、連体、仮定、命令等の活用があるが、それらはすべて一つのグループ単語として表現される。
【0039】
図5に戻り、ステップS13では、キーワードが見つかったかどうかの判定を行い、見つかった場合には、ステップS14の単語情報取得処理によって、単語情報データから個別単語情報とグループ単語情報をそれぞれ取得する一方、見つからなかった場合には、入力したキーワードを単語情報として個別単語情報とグループ単語情報とする。
【0040】
図9は、キーワードが単語情報データに存在する場合の処理例を説明するための図である。
【0041】
同図において、まず、キーワード「自動車」を入力する。次に、単語情報データの見出し(個別単語情報)を「自動車」で検索する。単語情報データ内に見出し「自動車」、グループ単語「車」が見つかる。これにより、グループ単語情報「車」と個別単語情報「自動車」を取得することができる。
【0042】
図10は、キーワードが単語情報データに存在しない場合の処理例を説明するための図である。
【0043】
入力キーワード「多く(連用形)」は「多い(終止形)」で扱われる。「多い」で単語情報データを検索する。単語情報データ内には「多い」を見出しとする情報は存在しないので、検索したキーワード「多い」をグループ単語情報、個別単語情報として取得する。
【0044】
図11は、入力キーワードと該入力キーワードに対して、図8の単語情報データに基づいて取得したグループ単語情報および個別単語情報の一例を示す図である。
【0045】
図4に戻り、ステップS5では、それぞれのグループ単語情報と個別単語情報を見出しとし、文書IDをデータとする検索用データを作成する。
【0046】
図12は、前記文書Aの情報を登録する前の検索用データの一例を示す図である。
【0047】
同図に示すように、検索用データは、グループ単語情報を見出し1とし、個別単語情報を見出し2とした文書IDデータを持っている。例えば、見出し1の「車」には「車」、「自動車」、「乗用車」、「自家用車」、「バス」、「トラック」が登録されていて、グループ単語情報「車」は、文書ID=1,2,3,4,5,6,7,9,10の文書に含まれていることがわかる。また、個別単語情報(見出し2)「自動車」は、文書ID=2,7の文書に含まれていることがわかる。
【0048】
図13は、検索用データへの登録処理例を説明するための図である。
【0049】
同図(a)は、見出し1=車/見出し2=自動車に、文書IDデータ=11を登録する例を示している。登録先に既に車/自動車の見出しがあるので、文書IDデータのみを追加する。登録後には、車/自動車の見出しには、文書ID=11が追加される。
【0050】
同図(b)は、道路/道路,文書IDデータ=11を登録する例を示している。検索用データ内に見出し1の「道路」は存在するが、見出し2の「道路」は存在しない。このような場合、見出し1の「道路」に対して新たに見出し2の「道路」を作成し、文書IDデータ=11を登録する。
【0051】
同図(c)は、多い/多い,文書IDデータ=11を登録する例を示している。検索用データ内に見出し1の「多い」、見出し2の「多い」が共に存在しない。このような場合、見出しとして、多い/多いを登録し、文書IDデータ=11を登録する。
【0052】
図14は、図12の検索用データに文書Aの情報を登録した登録結果を示す図である。
【0053】
このようにして、図4の文書登録処理により、文書を検索用データに登録することができる。
【0054】
図15は、本実施の形態の情報検索装置が実行する文書検索処理の手順を示すフローチャートである。
【0055】
同図において、まず、ステップS21では、検索条件の入力を行なう。検索条件は、自然文もしくはキーワード論理式のいずれかで入力することができる。
【0056】
図16は、この検索条件入力の一例を示す図である。まず、検索文字列の条件として、「乗用車の事故」という自然文による入力または、[乗用車]AND[事故]という論理式による入力のどちらでも検索することが可能である。つぎに、検索キーワードの扱いとして、キーワードを拡張して検索を行なうか、入力した文字列のみをキーワードとするかを選択することができる。
【0057】
図15に戻り、ステップS22では、検索条件で与えられた文字列から、キーワードの抽出を行なう。
【0058】
図17は、このキーワード抽出処理の詳細な手順を示すフローチャートである。
【0059】
同図において、検索条件文字列が論理式だった場合には、検索キーワードとして論理式で指定したキーワードをそのまま使用する(ステップS31→S32)。例えば[乗用車]AND[事故]では、検索条件で指定した単語、「乗用車」と「事故」がそのまま検索キーワードとなる。
【0060】
一方、検索条件文字列が自然文だった場合には、形態素解析などの単語切り出し処理を実行して単語単位に切り出した(ステップS31→S33)後、検索キーワードになるかどうかの判断をする(ステップS34)。
【0061】
図18は、自然文を指定した場合の検索条件文字列から検索キーワードを抽出する処理を示す図である。検索条件文字列「乗用車の事故」に対して形態素解析などを実行し、単語切り出し結果として、「乗用車」「の」「事故」という単語を得る。この中から、検索キーワードとなる単語を抽出するが、登録時の検索キーワード抽出と同じ条件が望ましいので、自立語である「乗用車」と「事故」を検索キーワードとして取得する。
【0062】
図15に戻り、ステップS23では、抽出した検索キーワードのグループ単語情報と個別単語情報を単語情報として取得する。この処理は、前記図5のキーワードの単語情報取得処理を用いればよい。
【0063】
前記ステップS11では、ステップS22で抽出した検索キーワードを入力する。したがって、「乗用車」および「事故」をキーワードとして、単語情報取得処理を実行する。
【0064】
ステップS12では、各キーワードで単語情報データを検索する。
【0065】
ステップS13では、キーワードが見つかったかどうかの判定を行い、見つかった場合には、ステップS14の単語情報取得処理によって、単語情報データから個別単語情報とグループ単語情報をそれぞれ取得する一方、見つからなかった場合には、入力したキーワードを単語情報として個別単語情報とグループ単語情報とする。
【0066】
図19は、単語情報取得処理の一例を示す図である。「乗用車」の単語情報として、グループ単語情報「車」と個別単語情報「乗用車」が取得される。「事故」の単語情報としては、グループ単語情報「事故」と個別単語情報「事故」が取得される。
【0067】
図15に戻り、ステップS24では、ステップS23で取得した個別単語情報およびグループ単語情報に対して検索用データを検索する。図20の検索用データ中、斜線が施されていない範囲のものが今回の検索対象データである。すなわち、「車/乗用車」、「事故/事故」で検索用データを検索する。
【0068】
図21は、グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。
【0069】
まず、検索用データをグループ単語情報「車」で検索する。グループ単語情報の「車」には個別単語情報「車」、「自動車」、「乗用車」…も含まれるので、それらのすべてのデータがグループ単語情報「車」に対するデータとして取得される。
【0070】
次に、個別単語情報「乗用車」も同時に検索する。この場合、取得されるデータは個別単語情報「乗用車」にかぎられる。
【0071】
それぞれの情報を検索した結果、グループ単語情報「車」の含まれる文書データとして(1,2,3,4,5,6,7,9,10,11)が取得され、個別単語情報「乗用車」の含まれる文書データとして(3,7,10)が取得される。同様にして、グループ単語情報「事故」の含まれる文書データとして(1,2,3,4,5,7,8,9,10,11)が取得され、個別単語情報「事故」の含まれる文書データとして(1,2,3,5,7,9,11)が取得される。最終的に、図22のような検索結果を得ることができる。
【0072】
図15に戻り、ステップS25では、検索条件のキーワード拡張条件の有無によって処理を分岐する。拡張ありの場合には、ステップS26に進み、グループ単語重視に単語情報を設定する。一方、拡張なしの場合には、ステップS27に進み個別単語重視に単語情報を設定する。
【0073】
まず、検索キーワードの拡張の指定が拡張ありだった場合の処理について説明する。
【0074】
ステップS26では、検索キーワードに対して、重要度の設定を行う。重要度の設定は、グループ単語情報の重要度に個別単語情報の重要度を加味した値を最高値とする重要度で計算する。
【0075】
本実施の形態では、拡張ありとした場合は、グループ単語すべてが重要だろうと考えて、グループ単語情報の重要度=8、個別単語情報の重要度=2として、重要度の最高値=10を設定する。その結果、図23のように重要度が各文書IDに対して付与される。
【0076】
ステップS28では、与えられた単語の重要度に基づいて検索結果の判定処理を行う。ここで、文書への重要度の付け方には各種方法が考えられるが、本実施の形態では、最も簡単な重要度の平均を取ってスコアを付けることにする。つまり、検索キーワードが3個あり、単語重要度が10,8,0の場合には、文書重要度は、(10+8+0)/3=6となる。
【0077】
図24は、検索結果の判定処理の一例を示す図である。
【0078】
「乗用車」AND「事故」という検索条件に対して、このように検索結果の対象となった文書すべてについて、文書重要度を計算する。例えば、文書ID=1の文書の重要度は、(8+10)/2=9、同様に、文書ID=3の文書の重要度は、(10+10)/2=10、文書ID=6の文書の重要度は、(8+0)/2=4という結果を得ることができる。
【0079】
ステップS29では、検索結果の出力を行う。
【0080】
図25は、検索結果の一例を示す図であり、図示例では、文書重要度順にソートして文書の出力を行っている。
【0081】
次に、検索キーワードの拡張の指定が拡張なしだった場合の処理について説明する。
【0082】
ステップS27では、検索キーワードに対して、重要度の設定を行う。重要度の設定は、拡張ありと同様に、グループ単語情報の重要度に個別単語情報の重要度を加味した値を最高値とする重要度で計算する。
【0083】
本実施の形態では、拡張なしとした場合は、個別単語が重要だろうと考えて、グループ単語情報の重要度=2、個別単語情報の重要度=8として、重要度の最高値=10を設定する。その結果、図26のように重要度が各文書IDに対して付与される。
【0084】
ステップS28では、与えられた単語の重要度に基づいて検索結果の判定処理を行う。ここで、文書への重要度の付け方には各種方法が考えられるが、本実施の形態では、最も簡単な重要度の平均を取ってスコアを付けることにする。つまり、検索キーワードが3個あり、単語重要度が10,2,0の場合、文書重要度は、(10+2+0)/3=4となる。
【0085】
図27は、検索結果の判定処理の一例を示す図である。
【0086】
「乗用車」AND「事故」という検索条件に対して、このように検索結果の対象となった文書すべてについて、文書重要度を計算する。例えば、文書ID=1の文書の重要度は、(2+10)/2=6、同様に、文書ID=3の文書の重要度は、(10+10)/2=10、文書ID=6の文書の重要度は、(2+0)/2=1という結果を得ることができる。
【0087】
ステップS29では、検索結果の出力を行う。
【0088】
図28は、検索結果の一例を示す図であり、文書重要度順にソートして文書の出力を行っている。
【0089】
このように、拡張ありの場合と比べて、個別単語情報の一致がスコアに大きな影響を与えている。
【0090】
(第2の実施の形態)
本発明の第2の実施の形態に係る情報検索方法は、上記第1の実施の形態で形態素解析した単語をすべてIDによって置き換え、システム内では単語IDで処理するようにしたものである。
【0091】
図29は、それぞれのキーワードに固有なIDを個別単語情報として付与し、それぞれがどのグループ単語に属するかを表した単語情報データの一例を示す図である。
【0092】
同図のデータによると、例えば、「乗用車」という単語は個別単語ID=3、グループ単語ID=1で表されている。
【0093】
上記第1の実施の形態と同様に、文書ID=11として、「乗用車の事故が多く起きる道路が…」を登録する場合、「乗用車」、「事故」、「多い」、「起きる」、「道路」がキーワードとなる。
【0094】
「乗用車」のグループ単語ID=1と個別単語ID=3を乗用車(1,3)と表現すると、同様に、事故(4,14)、多い(5,16)、起きる(2,9)、道路(3,12)と表現でき、これらの単語情報を検索用データとして登録する。
【0095】
図30は、このデータに基づいて作成された登録用データの一例を示す図である。すなわち、図30は、図14とまったく同じ内容をIDで表したものである。
【0096】
次に、検索条件として「乗用車の事故」が入力された場合、検索する単語情報として乗用車(1,3)と事故(4,14)を得ることができる。
【0097】
それぞれの情報を検索した結果、グループ単語情報ID=1の含まれる文書データとして(1,2,3,4,5,6,7,9,10,11)が取得され、個別単語情報ID=3の含まれる文書データとして(3,7,10)が取得される。
【0098】
同様にして、グループ単語情報ID=4の含まれる文書データとして(1,2,3,4,5,7,8,9,10,11)が取得され、個別単語情報ID=14の含まれる文書データとして(1,2,3,5,7,9,11)が取得される。これらの検索結果判定処理を行った検索結果は、上記第1の実施の形態と同様に、キーワード拡張ありの場合、図25の検索結果を得ることができ、キーワード拡張なしの場合、図28の検索結果を得ることができる。
【0099】
(第3の実施の形態)
本発明の第3の実施の形態に係る情報検索方法は、文書データとして文書ID以外の情報も文書IDとして登録するようにしたものである。
【0100】
例えば、文書中での単語の出現頻度などを一緒に格納することができる。今回登録する文書ID=11の内容が「自動車の事故が多く起きる道路…。自動車による事故はドライバーの」という文書であれば、「事故」と「自動車」が2回出現しているために、見出し「車/自動車(1/2)」には文書IDと単語の出現頻度2を同時に登録する。文書ID/出現回数/文書内単語数で表現する。
【0101】
なお、同時に文書に含まれるキーワードの数、もしくは形態素の数を登録するようにしてもよい。
【0102】
図31は、単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【0103】
この検索用データを基に、検索時には単語の重要度を計算する処理としては一般的であるtf・idf法などの手法に基づいて行うことができる。
tf=文中の単語出現数/文中の総単語数
idf(t)=log(全登録文書数/単語の出現する文書数)+1
本実施の形態では、この手法を採用して、単語の重要度を計算する。
【0104】
例えば、文書ID=3検索キーワード拡張ありの場合、
「乗用車」のtf・idf値=0.0615×1.0414=0.064
となり、
「事故」のtf・idf値=0.0231×1.0414=0.024
となる。
【0105】
文書の重要度は、ベクトル空間モデルなどを利用することも考えられるが、ここでは単純に加算した値を文書の重要度(類似度)とする。
【0106】
その結果、文書3の重要度は、“0.088”となる。
【0107】
同様に、キーワード拡張なしの場合、
「乗用車」のtf・idf値=0.0385×1.5643=0.060
となり、
「事故」のtf・idf値=0.0231×1.1963=0.028
となる。
【0108】
その結果、文書3の重要度は、“0.088”となる。
【0109】
図32は、各文書毎に重要度を算出した結果の一例を示す図である。
【0110】
このようにして、拡張キーワードを考慮した検索を行うことにより、より精度の高い検索結果を得ることができる。
【0111】
(第4の実施の形態)
本発明の第4の実施の形態に係る情報検索方法は、更にデータの詳細化を進め、文書の情報だけではなく出現する単語個々の情報を格納するようにしたものである。
【0112】
単語個別の情報として、係り受けの関係、単語出現位置などを格納する例を説明する。例えば「自動車の事故が多く起きる道路」は、文構造の解析などを行うことによって、図33のような構造を持つことがわかる。これから、次のような情報を得ることができる。[自動車−事故]の間には、係り受け構造が存在し、[連体修飾]の関係を持っている。この関係をデータに表現する場合、以下のようなデータ形式で格納する。例えば、文書ID=11のデータを登録するときには、
文書ID{(単語情報)、(単語情報)、…}
というような形式で格納する。すなわち、文書IDに対して複数の単語情報を保持することが可能である。
【0113】
更に、単語情報は、
(出現位置、係り受け関係、(グループ単語情報、個別単語情報))
のような形式で格納する。
【0114】
図34は、本実施の形態で作成された検索用データの一例を示す図である。
【0115】
このようにして、単語の係り受け関係や、出現位置など単語個々に関する情報を詳細に格納していくことによって、検索時にはより精度の高い結果を高速に得ることができる。
【0116】
(第5の実施の形態)
本発明の第5の実施の形態に係る情報検索方法は、前記第1の実施の形態に係る情報検索方法に対して、検索用データのフォーマットの異なったものを用いた点が異なっている。
【0117】
図35は、前記図12に対応するものであり、前記図1の文書Aの情報を登録する前の検索用データの一例を示す図である。
【0118】
図35に示すように、本実施の形態の検索用データは、図12の見出し2の情報を文書データ内に取り込み、文書IDデータに対応付けることによって構成している。
【0119】
図36は、前記図13に対応し、上記文書Aを図35の文書検索用データへ登録するときの処理を説明するための図である。図36の登録処理と、図13の登録処理との違いは、登録方法の違いではなく、単に検索用データのフォーマットの違いに起因するものである。
【0120】
図37は、前記図14に対応し、図35の検索用データに文書Aを登録した登録結果を示す図である。
【0121】
図38は、前記図20に対応し、検索対象データの一例を示す図である。
【0122】
図39は、前記図21に対応し、グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。図21の処理は、検索用データをグループ単語情報「車」および個別単語情報「乗用車」で同時に検索したのに対して、図39の処理は、まず、検索用データをグループ単語情報「車」で検索して、グループ単語情報「車」に含まれる文書データを取得し、次に、その文書データから、個別単語情報「乗用車」に一致するものを取得する点が異なっている。しかし、この違いも、検索方法の違いではなく、単に検索用データのフォーマットの違いに起因するものである。
【0123】
図40は、前記図30に対応し、前記図29のデータに基づいて作成された登録用データの一例を示す図である。
【0124】
図41は、前記図31に対応し、単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【0125】
図42は、前記図34に対応し、更にデータの詳細化を進め、文書の情報だけではなく出現する単語個々の情報を格納するようにしたものである。
【0126】
このような検索用データのフォーマットを用いても、前記第1の実施の形態と同様な処理を行うことができる。
【0127】
なお、上述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0128】
この場合、記憶媒体から読出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0129】
プログラムコードを供給するための記憶媒体としては、たとえば、フレキシブルディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、通信ネットワークを介してサーバコンピュータからプログラムコードが供給されるようにしてもよい。
【0130】
また、コンピュータが読出したプログラムコードを実行することにより、上述した各実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0131】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0132】
以下、本発明の実施態様の例を列挙する。
【0133】
(実施態様1) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、
該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、
該単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索ステップと、
前記単語情報取得ステップによって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索ステップと
を有することを特徴とする情報検索方法。
【0134】
(実施態様2) 検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報を取得する一方、前記指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報を取得する文書特定情報取得ステップをさらに有することを特徴とする実施態様1に記載の情報検索方法。
【0135】
(実施態様3) 前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報と、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報とに対して、それぞれ異なった値の重要度を付与する付与ステップをさらに有することを特徴とする実施態様1に記載の情報検索方法。
【0136】
(実施態様4) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報に対して、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様3に記載の情報検索方法。
【0137】
(実施態様5) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報に対して、前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様3に記載の情報検索方法。
【0138】
(実施態様6) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、
前記グループ単語情報を見出しとし、前記個別単語情報および該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、
該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、
前記単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する検索ステップと、
該検索ステップによって検索された検索用データに含まれる文書特定情報を取得する第1の取得ステップと、
前記検索ステップによって検索された検索用データに含まれる個別単語情報と、前記取得ステップによって取得された個別単語情報とを比較し、両個別単語情報が一致する検索用データに含まれる文書特定情報を取得する第2の取得ステップと
を有することを特徴とする情報検索方法。
【0139】
(実施態様7) 検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の取得ステップによって取得された文書特定情報を取得する一方、前記指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の取得ステップによって取得された文書特定情報を取得する文書特定情報取得ステップをさらに有することを特徴とする実施態様6に記載の情報検索方法。
【0140】
(実施態様8) 前記第1の取得ステップによって取得された文書特定情報と、前記第2の取得ステップによって取得された文書特定情報とに対して、それぞれ異なった値の重要度を付与する付与ステップをさらに有することを特徴とする実施態様6に記載の情報検索方法。
【0141】
(実施態様9) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の取得ステップによって取得された文書特定情報に対して、前記第2の取得ステップによって取得された文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様8に記載の情報検索方法。
【0142】
(実施態様10) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の取得ステップによって取得された文書特定情報に対して、前記第1の取得ステップによって取得された文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様8に記載の情報検索方法。
【0143】
(実施態様11) 前記重要度は、予め設定された固定値であることを特徴とする実施態様3〜5または8〜10のいずれかに記載の情報検索方法。
【0144】
(実施態様12) 前記重要度は、ユーザによって設定可能なユーザ設定値であることを特徴とする実施態様3〜5または8〜10のいずれかに記載の情報検索方法。
【0145】
(実施態様13) 前記重要度は、検索結果の数に応じて変動する変動値であることを特徴とする実施態様3〜5または8〜10のいずれかに記載の情報検索方法。
【0146】
(実施態様14) 前記付与ステップによって付与された重要度に基づいて、文書特定情報を取得する文書特定情報取得ステップをさらに有することを特徴とする実施態様3〜5または8〜13のいずれかに記載の情報検索方法。
【0147】
(実施態様15) 前記グループ単語情報は、当該グループに含まれる複数の単語の中から代表する単語を表記したものであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0148】
(実施態様16) 前記グループ単語情報は、当該グループ単語を一意に表すグループ単語IDであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0149】
(実施態様17) 前記個別単語情報は、当該単語を表記したものであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0150】
(実施態様18) 前記個別単語情報は、当該単語を一意に表す単語IDであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0151】
(実施態様19) 前記文書特定情報取得ステップによって取得された文書特定情報が前記指定された検索条件に適合する程度を判定する判定ステップをさらに有することを特徴とする実施態様2,7または14のいずれかに記載の情報検索方法。
【0152】
(実施態様20) 前記検索用データには、前記文書特定情報に対応付けて、当該個別単語情報によって特定される単語が該文書中に出現する出現回数も登録され、
前記判定ステップでは、前記取得された文書特定情報に対応付けられた出現回数に基づいて判定する
ことを特徴とする実施態様19に記載の情報検索方法。
【0153】
(実施態様21) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶手順と、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶手順と、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手順と、
該抽出手順によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手順と、
該単語情報取得手順によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索手順と、
前記単語情報取得手順によって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索手順とをコンピュータに実行させるためのプログラム。
【0154】
(実施態様22) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶手順と、
前記グループ単語情報を見出しとし、前記個別単語情報および該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶手順と、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手順と、
該抽出手順によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手順と、
前記単語情報取得手順によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する検索手順と、
該検索手順によって検索された検索用データに含まれる文書特定情報を取得する第1の取得手順と、
前記検索手順によって検索された検索用データに含まれる個別単語情報と、前記取得手順によって取得された個別単語情報とを比較し、両個別単語情報が一致する検索用データに含まれる文書特定情報を取得する第2の取得手順と
をコンピュータに実行させるためのプログラム。
【0155】
(実施態様23) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを記憶する第1の記憶手段と、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを記憶する第2の記憶手段と、
文字情報からなる検索条件を指定する指定手段と、
該指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手段と、
該抽出手段によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手段と、
該単語情報取得手段によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索手段と、
前記単語情報取得手段によって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索手段とを有することを特徴とする情報検索装置。
【0156】
(実施態様24) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを記憶する第1の記憶手段と、
前記グループ単語情報を見出しとし、前記個別単語情報および該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを記憶する第2の記憶手段と、
文字情報からなる検索条件を指定する指定手段と、
該指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手段と、
該抽出手段によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手段と、
前記単語情報取得手段によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する検索手段と、
該検索手段によって検索された検索用データに含まれる文書特定情報を取得する第1の取得手段と、
前記検索手段によって検索された検索用データに含まれる個別単語情報と、前記取得手段によって取得された個別単語情報とを比較し、両個別単語情報が一致する検索用データに含まれる文書特定情報を取得する第2の取得手段と
を有することを特徴とする情報検索装置。
【0157】
【発明の効果】
以上説明したように、本発明によれば、自然文による検索を行なうときの検索漏れを解消することができ、また、論理式入力時の検索者の負担を軽くすることができるために、操作性を大幅に向上することができる。
【0158】
さらに、検索漏れを防ぐために、キーワードの拡張を指定した場合においても、同義語や類義語によるキーワードの拡張を行なわないので、検索処理を最小限に抑えることができる、これにより、検索速度の高速化を実現することができる。
【0159】
また、キーワードの拡張を指定しない場合においても、グループ単語を検索することによって、重要度の低い情報としてキーワードに完全一致しない語を検索結果として出力することが可能であるために、検索漏れを防いだ高精度な検索を高速に実現することが可能となる。
【0160】
また、本発明によれば、システム内で単語の扱いは文字列ではなくIDであるために、検索用データや内部処理に要するメモリを節約することができるほか、検索用データの検索処理や、検索用データへの追加登録処理において、高速に処理を実行することが可能となる。
【0161】
さらに、本発明によれば、高速に妥当性の高い文書から提示できるために検索結果が多数存在した場合においても、検索者の探したい情報をより早く得ることが可能となり、操作性の向上という効果を得ることができる。
【0162】
また、本発明によれば、単語の個別の情報を持たせることにより、より精度の高い検索結果を得ることが可能となる。
【0163】
また、本発明の特徴として、キーワードの拡張を行なう場合とキーワードの拡張を行なわない場合どちらの場合においても、高速な検索を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索方法を適用した情報検索装置の概略構成を表すブロック図である。
【図2】図1の情報検索装置を構築する他の環境の一例として挙げた、ローカルなネットワーク環境を示す図である。
【図3】図1の情報検索装置を構築する他の環境の一例として挙げた、インターネット環境を示す図である。
【図4】図1の情報検索装置が実行する文書登録処理の手順を示すフローチャートである。
【図5】図4のキーワードの単語情報取得処理の詳細な手順を示すフローチャートである。
【図6】図4の文書ID付与処理を説明するための図である。
【図7】図4の登録対象文書からキーワードを抽出する処理を説明するための図である。
【図8】単語情報データの一例を表した図である。
【図9】キーワードが単語情報データに存在する場合の処理例を説明するための図である。
【図10】キーワードが単語情報データに存在しない場合の処理例を説明するための図である。
【図11】入力キーワードと該入力キーワードに対して、図8の単語情報データに基づいて取得したグループ単語情報および個別単語情報の一例を示す図である。
【図12】文書Aの情報を登録する前の検索用データの一例を示す図である。
【図13】検索用データへの登録処理例を説明するための図である。
【図14】図12の検索用データに文書Aの情報を登録した登録結果を示す図である。
【図15】図1の情報検索装置が実行する文書検索処理の手順を示すフローチャートである。
【図16】図15の検索条件入力の一例を示す図である。
【図17】図15のキーワード抽出処理の詳細な手順を示すフローチャートである。
【図18】自然文を指定した場合の検索条件文字列から検索キーワードを抽出する処理を示す図である。
【図19】図15の単語情報取得処理の一例を示す図である。
【図20】検索対象データの一例を示す図である。
【図21】グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。
【図22】検索結果の一例を示す図である。
【図23】重要度を各文書IDに対して付与した結果の一例を示す図である。
【図24】検索結果の判定処理の一例を示す図である。
【図25】検索結果の一例を示す図である。
【図26】重要度を各文書IDに対して付与した結果の一例を示す図である。
【図27】検索結果の判定処理の一例を示す図である。
【図28】検索結果の一例を示す図である。
【図29】それぞれのキーワードに固有なIDを個別単語情報として付与し、それぞれがどのグループ単語に属するかを表した単語情報データの一例を示す図である。
【図30】図29のデータに基づいて作成された登録用データの一例を示す図である。
【図31】単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【図32】各文書毎に重要度を算出した結果の一例を示す図である。
【図33】「自動車の事故が多く起きる道路」に対して文構造の解析を行った結果の一例を示す図である。
【図34】本発明の第4の実施の形態で作成された検索用データの一例を示す図である。
【図35】本発明の第5の実施の形態において、図1の文書Aの情報を登録する前の検索用データの一例を示す図である。
【図36】文書Aを図35の文書検索用データへ登録するときの処理を説明するための図である。
【図37】図35の検索用データに図36の登録処理によって登録した登録結果を示す図である。
【図38】本発明の第5の実施の形態において、検索対象データの一例を示す図である。
【図39】本発明の第5の実施の形態において、グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。
【図40】本発明の第5の実施の形態において、図29のデータに基づいて作成された登録用データの一例を示す図である。
【図41】本発明の第5の実施の形態において、単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【図42】本発明の第5の実施の形態において、更にデータの詳細化を進め、文書の情報だけではなく出現する単語個々の情報を格納するようにしたものである。
【図43】従来の第1の情報検索方法を説明するための図である。
【図44】従来の第2の情報検索方法を説明するための図である。
【図45】従来の第3の情報検索方法を説明するための図である。
【符号の説明】
1 入力装置
2 CPU
3 出力装置
4 記憶装置
41 処理プログラム
42 単語情報データ
43 検索用データ
【発明の属する技術分野】
本発明は、複数の情報から目的の情報を検索する情報検索方法に関する。
【0002】
【従来の技術】
図43は、従来の第1の情報検索方法を説明するための図である。
【0003】
同図において、まず、検索者は検索条件を自然文によって指定する。検索クエリとして、例えば「乗用車の事故」が入力されると、入力された検索文字列に対して、形態素解析などの単語切り出し方法によって、キーワード抽出を行ない、「乗用車」および「事故」というキーワードが抽出される。次に、抽出したキーワードを基に検索条件を設定する。ここでは、[乗用車]AND[事故]という条件によって検索を行なう。あらかじめ登録されている検索対象文書に対して、この条件によって検索を行なう。検索の結果、文書ID=3「トラックと乗用車の事故現場」と文書ID=7「自動車事故の大半が乗用車による事故」が得られる。
【0004】
図44は、従来の第2の情報検索方法を説明するための図である。
【0005】
同図において、まず、検索者は検索条件を、キーワードの論理式等によって設定する。例えば、検索式として、以下の検索式を指定する。
([乗用車]OR[自動車]OR[車])AND([事故])
このとき、検索者は検索漏れが起きないように論理式を指定しなければいけない。また、どの単語を検索するか意味的に同じ単語を検索条件として指定していく必要がある。次に、あらかじめ登録されている検索対象文書に対して、前記検索条件によって検索を行なう。検索の結果、文書ID=2「自動車事故による被害者」、文書ID=3「トラックと乗用車の事故現場」、文書ID=7「自動車事故の大半が乗用車による事故」が得られる。
【0006】
図45は、従来の第3の情報検索方法を説明するための図である。
【0007】
同図において、まず、検索者は検索条件を自然文によって指定する。検索クエリとして、例えば「乗用車の事故」が入力されると、入力された検索文字列に対して、形態素解析などの単語切り出し方法によって、キーワード抽出を行ない、「乗用車」および「事故」というキーワードが抽出される。次に、抽出されたキーワードを基に、検索者の指示あるいは自動的に類義語や同義語などの情報を用いてキーワード拡張する。
【0008】
そして、拡張したキーワードを基に検索条件を設定する。ここでは、以下の検索条件に従って検索を実行する。
([乗用車]OR[車]OR[自動車]OR[自家用車]OR[バス]OR[トラック])AND([事故]OR[アクシデント])
あらかじめ登録されている検索対象文書に対して、この条件によって検索を行なう。検索の結果、文書ID1,2,3,4,5,7,9,10の文書が得られる。
【0009】
例えば、特許文献1および2などは、この第3の情報検索方法を用いて情報検索を行っている。
【0010】
【特許文献1】
特開平7−65013号公報
【特許文献2】
特開平8−255163号公報
【0011】
【発明が解決しようとする問題】
しかし、上記従来の第1の情報検索方法では、検索クエリ「乗用車の事故」に対して「自動車」や「アクシデント」で表記される検索結果を得ることができないので、検索漏れが多く、すべての検索結果を取得したい場合や、同義語や表記のゆれが多い単語を検索する場合に、満足する結果を得ることはできなかった。
【0012】
また、上記従来の第2の情報検索方法では、検索者自身が検索式を考えて設定しなければならないので、網羅的に検索したい場合は、複雑な検索式を自ら設定しなければならず、検索者の負担が増大し操作性において非常に使い勝手が悪かった。
【0013】
さらに、上記従来の第3の情報検索方法では、同義語や類義語などの情報を基にキーワードを拡張し、検索を行なうので、漏れの少ない検索結果を得ることができるものの、検索キーワードが増加するために検索速度が遅くなるという欠点があった。また、キーワードの拡張はシステム任せであるために、検索ノイズが多く発生する原因になっていた。
【0014】
本発明は、この点に着目してなされたものであり、操作性を向上させつつ、高精度で高速な検索を行うことが可能となる情報検索方法を提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するため、請求項1に記載の情報検索方法は、個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、該単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索ステップと、前記単語情報取得ステップによって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索ステップとを有することを特徴とする。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0017】
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る情報検索方法を適用した情報検索装置の概略構成を表すブロック図である。
【0018】
同図に示すように、本実施の形態の情報検索装置は、キーボードやファイル等の入力装置1と、装置全体の制御を司るCPU2と、ディスプレイなどの出力装置3と、メモリやハードディスクなどの記憶装置4とによって構成されている。
【0019】
登録時には、入力装置1から入力された登録文書は、記憶装置4上に展開された処理プログラム41により、CPU2で処理される。
【0020】
処理プログラム41は、文書の中から検索キーワードとなるキーワードを抽出し、同様に記憶装置4に記憶されている単語情報データ42を参照して、抽出したキーワードの単語情報を取得する。さらに、取得した単語情報を見出しとする検索用データ43に登録する。
【0021】
検索時には、入力装置1から入力された検索条件は、記憶装置4上に展開された処理プログラム41により、CPU2で処理される。
【0022】
処理プログラム41は、検索条件から検索キーワードを抽出し、同様に記憶装置4に記憶されている単語情報データ42を参照して、抽出キーワードの単語情報を取得する。単語情報を見出しとし、文書の情報や文書に含まれる単語の特徴を格納した検索用データ43から、入力装置1から入力された検索条件に合う文書を取得し、検索条件に対する類似性の付与や、最終的な結果とするかどうかの判断を行い、その結果を出力情報3に出力する。
【0023】
なお、本実施の形態の情報検索装置は、図1のような単体のコンピュータ上に構築する以外にも、図2のようなローカルなネットワーク環境上、および図3のようなインターネット環境上にも構築することができる。
【0024】
図4は、本実施の形態の情報検索装置が実行する文書登録処理の手順を示すフローチャートである。
【0025】
同図において、まず、ステップS1では、登録したい文書を指定する。指定する文書は、1文書でも複数文書でも構わない。
【0026】
次に、ステップS2では、ステップS1で指定した文書に対して固有の文書IDを付与する。
【0027】
図6は、文書ID付与処理を説明するための図である。
【0028】
同図において、ステップS1で指定された文書Aは、文書IDの使用の有無を管理している。この文書ID管理情報を参照することによって、文書ID=1〜10が割り当て済みということが分かり、まだ割り当てられていない文書ID=11を付与する。同時に、文書ID管理情報にもID=11が割り当て済みであるとする。これによって、システム内では文書Aは、文書ID=11の文書として扱うことができる。
【0029】
図4に戻り、ステップS3では、形態素解析処理などの文切り処理によって、文書内に登録するキーワードを抽出する。
【0030】
図7は、登録対象文書からキーワードを抽出する処理を説明するための図であり、登録対象文書Aの内容の「自動車の事故が多く起きる道路が…、」からキーワード抽出を行なう例が図示されている。
【0031】
同図において、まず、前記文に対して形態素解析などの単語切り出し処理を実行し形態素(単語)単位に分割する。その結果、単語切り出し結果で表される形態素(単語)の単位に分割される。次に、この形態素の中から、キーワードとなり得る単語を抽出する。キーワードとするかどうかを判断する方法は、自立語か否かでキーワードを判断する方法や、品詞によって判断する方法などの各種抽出方法があるが、本実施の形態では、自立語をキーワードとして抽出する方法を採用している。その結果、抽出キーワードにある形態素がキーワードとして抽出される。
【0032】
図4に戻り、ステップS4では、抽出した検索キーワードのグループ単語情報と個別単語情報を単語情報として取得する単語情報取得処理を実行する。
【0033】
図5は、このキーワードの単語情報取得処理の詳細な手順を示すフローチャートである。
【0034】
同図において、まず、ステップS11では、前記ステップS3で抽出したキーワードを入力する。したがって、図7の例では、「自動車」、「事故」、「多く(多い)」、「起きる」、「道路」がそれぞれキーワードとして入力され、これらのキーワードに基づいて単語情報取得処理がなされる。
【0035】
ステップS12では、それぞれのキーワードで単語情報データを検索する。
【0036】
図8は、単語情報データの一例を表した図である。
【0037】
多くの単語の場合、活用形や表記(ひらがな、カタカナ、漢字の違い)、表記のゆれ(送り仮名の違い)、同義語、類義語など、同じ意味を表すために複数の語が存在する。これらの語を一定の基準で一つにまとめた情報がグループ単語情報であり、個々の単語を別に扱ったものが個別単語情報である。
【0038】
本実施の形態では、単語情報データは、検索見出しとして個別単語情報を使用し、グループ単語情報を得ることができる構成になっている。例えば、この単語情報データによると、車、自動車、乗用車、自家用車、バス、トラック、カーなどの個別単語情報はすべて「車」というグループ単語情報で表現することができる。また、動詞、形容詞などは、未然、連用、終止、連体、仮定、命令等の活用があるが、それらはすべて一つのグループ単語として表現される。
【0039】
図5に戻り、ステップS13では、キーワードが見つかったかどうかの判定を行い、見つかった場合には、ステップS14の単語情報取得処理によって、単語情報データから個別単語情報とグループ単語情報をそれぞれ取得する一方、見つからなかった場合には、入力したキーワードを単語情報として個別単語情報とグループ単語情報とする。
【0040】
図9は、キーワードが単語情報データに存在する場合の処理例を説明するための図である。
【0041】
同図において、まず、キーワード「自動車」を入力する。次に、単語情報データの見出し(個別単語情報)を「自動車」で検索する。単語情報データ内に見出し「自動車」、グループ単語「車」が見つかる。これにより、グループ単語情報「車」と個別単語情報「自動車」を取得することができる。
【0042】
図10は、キーワードが単語情報データに存在しない場合の処理例を説明するための図である。
【0043】
入力キーワード「多く(連用形)」は「多い(終止形)」で扱われる。「多い」で単語情報データを検索する。単語情報データ内には「多い」を見出しとする情報は存在しないので、検索したキーワード「多い」をグループ単語情報、個別単語情報として取得する。
【0044】
図11は、入力キーワードと該入力キーワードに対して、図8の単語情報データに基づいて取得したグループ単語情報および個別単語情報の一例を示す図である。
【0045】
図4に戻り、ステップS5では、それぞれのグループ単語情報と個別単語情報を見出しとし、文書IDをデータとする検索用データを作成する。
【0046】
図12は、前記文書Aの情報を登録する前の検索用データの一例を示す図である。
【0047】
同図に示すように、検索用データは、グループ単語情報を見出し1とし、個別単語情報を見出し2とした文書IDデータを持っている。例えば、見出し1の「車」には「車」、「自動車」、「乗用車」、「自家用車」、「バス」、「トラック」が登録されていて、グループ単語情報「車」は、文書ID=1,2,3,4,5,6,7,9,10の文書に含まれていることがわかる。また、個別単語情報(見出し2)「自動車」は、文書ID=2,7の文書に含まれていることがわかる。
【0048】
図13は、検索用データへの登録処理例を説明するための図である。
【0049】
同図(a)は、見出し1=車/見出し2=自動車に、文書IDデータ=11を登録する例を示している。登録先に既に車/自動車の見出しがあるので、文書IDデータのみを追加する。登録後には、車/自動車の見出しには、文書ID=11が追加される。
【0050】
同図(b)は、道路/道路,文書IDデータ=11を登録する例を示している。検索用データ内に見出し1の「道路」は存在するが、見出し2の「道路」は存在しない。このような場合、見出し1の「道路」に対して新たに見出し2の「道路」を作成し、文書IDデータ=11を登録する。
【0051】
同図(c)は、多い/多い,文書IDデータ=11を登録する例を示している。検索用データ内に見出し1の「多い」、見出し2の「多い」が共に存在しない。このような場合、見出しとして、多い/多いを登録し、文書IDデータ=11を登録する。
【0052】
図14は、図12の検索用データに文書Aの情報を登録した登録結果を示す図である。
【0053】
このようにして、図4の文書登録処理により、文書を検索用データに登録することができる。
【0054】
図15は、本実施の形態の情報検索装置が実行する文書検索処理の手順を示すフローチャートである。
【0055】
同図において、まず、ステップS21では、検索条件の入力を行なう。検索条件は、自然文もしくはキーワード論理式のいずれかで入力することができる。
【0056】
図16は、この検索条件入力の一例を示す図である。まず、検索文字列の条件として、「乗用車の事故」という自然文による入力または、[乗用車]AND[事故]という論理式による入力のどちらでも検索することが可能である。つぎに、検索キーワードの扱いとして、キーワードを拡張して検索を行なうか、入力した文字列のみをキーワードとするかを選択することができる。
【0057】
図15に戻り、ステップS22では、検索条件で与えられた文字列から、キーワードの抽出を行なう。
【0058】
図17は、このキーワード抽出処理の詳細な手順を示すフローチャートである。
【0059】
同図において、検索条件文字列が論理式だった場合には、検索キーワードとして論理式で指定したキーワードをそのまま使用する(ステップS31→S32)。例えば[乗用車]AND[事故]では、検索条件で指定した単語、「乗用車」と「事故」がそのまま検索キーワードとなる。
【0060】
一方、検索条件文字列が自然文だった場合には、形態素解析などの単語切り出し処理を実行して単語単位に切り出した(ステップS31→S33)後、検索キーワードになるかどうかの判断をする(ステップS34)。
【0061】
図18は、自然文を指定した場合の検索条件文字列から検索キーワードを抽出する処理を示す図である。検索条件文字列「乗用車の事故」に対して形態素解析などを実行し、単語切り出し結果として、「乗用車」「の」「事故」という単語を得る。この中から、検索キーワードとなる単語を抽出するが、登録時の検索キーワード抽出と同じ条件が望ましいので、自立語である「乗用車」と「事故」を検索キーワードとして取得する。
【0062】
図15に戻り、ステップS23では、抽出した検索キーワードのグループ単語情報と個別単語情報を単語情報として取得する。この処理は、前記図5のキーワードの単語情報取得処理を用いればよい。
【0063】
前記ステップS11では、ステップS22で抽出した検索キーワードを入力する。したがって、「乗用車」および「事故」をキーワードとして、単語情報取得処理を実行する。
【0064】
ステップS12では、各キーワードで単語情報データを検索する。
【0065】
ステップS13では、キーワードが見つかったかどうかの判定を行い、見つかった場合には、ステップS14の単語情報取得処理によって、単語情報データから個別単語情報とグループ単語情報をそれぞれ取得する一方、見つからなかった場合には、入力したキーワードを単語情報として個別単語情報とグループ単語情報とする。
【0066】
図19は、単語情報取得処理の一例を示す図である。「乗用車」の単語情報として、グループ単語情報「車」と個別単語情報「乗用車」が取得される。「事故」の単語情報としては、グループ単語情報「事故」と個別単語情報「事故」が取得される。
【0067】
図15に戻り、ステップS24では、ステップS23で取得した個別単語情報およびグループ単語情報に対して検索用データを検索する。図20の検索用データ中、斜線が施されていない範囲のものが今回の検索対象データである。すなわち、「車/乗用車」、「事故/事故」で検索用データを検索する。
【0068】
図21は、グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。
【0069】
まず、検索用データをグループ単語情報「車」で検索する。グループ単語情報の「車」には個別単語情報「車」、「自動車」、「乗用車」…も含まれるので、それらのすべてのデータがグループ単語情報「車」に対するデータとして取得される。
【0070】
次に、個別単語情報「乗用車」も同時に検索する。この場合、取得されるデータは個別単語情報「乗用車」にかぎられる。
【0071】
それぞれの情報を検索した結果、グループ単語情報「車」の含まれる文書データとして(1,2,3,4,5,6,7,9,10,11)が取得され、個別単語情報「乗用車」の含まれる文書データとして(3,7,10)が取得される。同様にして、グループ単語情報「事故」の含まれる文書データとして(1,2,3,4,5,7,8,9,10,11)が取得され、個別単語情報「事故」の含まれる文書データとして(1,2,3,5,7,9,11)が取得される。最終的に、図22のような検索結果を得ることができる。
【0072】
図15に戻り、ステップS25では、検索条件のキーワード拡張条件の有無によって処理を分岐する。拡張ありの場合には、ステップS26に進み、グループ単語重視に単語情報を設定する。一方、拡張なしの場合には、ステップS27に進み個別単語重視に単語情報を設定する。
【0073】
まず、検索キーワードの拡張の指定が拡張ありだった場合の処理について説明する。
【0074】
ステップS26では、検索キーワードに対して、重要度の設定を行う。重要度の設定は、グループ単語情報の重要度に個別単語情報の重要度を加味した値を最高値とする重要度で計算する。
【0075】
本実施の形態では、拡張ありとした場合は、グループ単語すべてが重要だろうと考えて、グループ単語情報の重要度=8、個別単語情報の重要度=2として、重要度の最高値=10を設定する。その結果、図23のように重要度が各文書IDに対して付与される。
【0076】
ステップS28では、与えられた単語の重要度に基づいて検索結果の判定処理を行う。ここで、文書への重要度の付け方には各種方法が考えられるが、本実施の形態では、最も簡単な重要度の平均を取ってスコアを付けることにする。つまり、検索キーワードが3個あり、単語重要度が10,8,0の場合には、文書重要度は、(10+8+0)/3=6となる。
【0077】
図24は、検索結果の判定処理の一例を示す図である。
【0078】
「乗用車」AND「事故」という検索条件に対して、このように検索結果の対象となった文書すべてについて、文書重要度を計算する。例えば、文書ID=1の文書の重要度は、(8+10)/2=9、同様に、文書ID=3の文書の重要度は、(10+10)/2=10、文書ID=6の文書の重要度は、(8+0)/2=4という結果を得ることができる。
【0079】
ステップS29では、検索結果の出力を行う。
【0080】
図25は、検索結果の一例を示す図であり、図示例では、文書重要度順にソートして文書の出力を行っている。
【0081】
次に、検索キーワードの拡張の指定が拡張なしだった場合の処理について説明する。
【0082】
ステップS27では、検索キーワードに対して、重要度の設定を行う。重要度の設定は、拡張ありと同様に、グループ単語情報の重要度に個別単語情報の重要度を加味した値を最高値とする重要度で計算する。
【0083】
本実施の形態では、拡張なしとした場合は、個別単語が重要だろうと考えて、グループ単語情報の重要度=2、個別単語情報の重要度=8として、重要度の最高値=10を設定する。その結果、図26のように重要度が各文書IDに対して付与される。
【0084】
ステップS28では、与えられた単語の重要度に基づいて検索結果の判定処理を行う。ここで、文書への重要度の付け方には各種方法が考えられるが、本実施の形態では、最も簡単な重要度の平均を取ってスコアを付けることにする。つまり、検索キーワードが3個あり、単語重要度が10,2,0の場合、文書重要度は、(10+2+0)/3=4となる。
【0085】
図27は、検索結果の判定処理の一例を示す図である。
【0086】
「乗用車」AND「事故」という検索条件に対して、このように検索結果の対象となった文書すべてについて、文書重要度を計算する。例えば、文書ID=1の文書の重要度は、(2+10)/2=6、同様に、文書ID=3の文書の重要度は、(10+10)/2=10、文書ID=6の文書の重要度は、(2+0)/2=1という結果を得ることができる。
【0087】
ステップS29では、検索結果の出力を行う。
【0088】
図28は、検索結果の一例を示す図であり、文書重要度順にソートして文書の出力を行っている。
【0089】
このように、拡張ありの場合と比べて、個別単語情報の一致がスコアに大きな影響を与えている。
【0090】
(第2の実施の形態)
本発明の第2の実施の形態に係る情報検索方法は、上記第1の実施の形態で形態素解析した単語をすべてIDによって置き換え、システム内では単語IDで処理するようにしたものである。
【0091】
図29は、それぞれのキーワードに固有なIDを個別単語情報として付与し、それぞれがどのグループ単語に属するかを表した単語情報データの一例を示す図である。
【0092】
同図のデータによると、例えば、「乗用車」という単語は個別単語ID=3、グループ単語ID=1で表されている。
【0093】
上記第1の実施の形態と同様に、文書ID=11として、「乗用車の事故が多く起きる道路が…」を登録する場合、「乗用車」、「事故」、「多い」、「起きる」、「道路」がキーワードとなる。
【0094】
「乗用車」のグループ単語ID=1と個別単語ID=3を乗用車(1,3)と表現すると、同様に、事故(4,14)、多い(5,16)、起きる(2,9)、道路(3,12)と表現でき、これらの単語情報を検索用データとして登録する。
【0095】
図30は、このデータに基づいて作成された登録用データの一例を示す図である。すなわち、図30は、図14とまったく同じ内容をIDで表したものである。
【0096】
次に、検索条件として「乗用車の事故」が入力された場合、検索する単語情報として乗用車(1,3)と事故(4,14)を得ることができる。
【0097】
それぞれの情報を検索した結果、グループ単語情報ID=1の含まれる文書データとして(1,2,3,4,5,6,7,9,10,11)が取得され、個別単語情報ID=3の含まれる文書データとして(3,7,10)が取得される。
【0098】
同様にして、グループ単語情報ID=4の含まれる文書データとして(1,2,3,4,5,7,8,9,10,11)が取得され、個別単語情報ID=14の含まれる文書データとして(1,2,3,5,7,9,11)が取得される。これらの検索結果判定処理を行った検索結果は、上記第1の実施の形態と同様に、キーワード拡張ありの場合、図25の検索結果を得ることができ、キーワード拡張なしの場合、図28の検索結果を得ることができる。
【0099】
(第3の実施の形態)
本発明の第3の実施の形態に係る情報検索方法は、文書データとして文書ID以外の情報も文書IDとして登録するようにしたものである。
【0100】
例えば、文書中での単語の出現頻度などを一緒に格納することができる。今回登録する文書ID=11の内容が「自動車の事故が多く起きる道路…。自動車による事故はドライバーの」という文書であれば、「事故」と「自動車」が2回出現しているために、見出し「車/自動車(1/2)」には文書IDと単語の出現頻度2を同時に登録する。文書ID/出現回数/文書内単語数で表現する。
【0101】
なお、同時に文書に含まれるキーワードの数、もしくは形態素の数を登録するようにしてもよい。
【0102】
図31は、単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【0103】
この検索用データを基に、検索時には単語の重要度を計算する処理としては一般的であるtf・idf法などの手法に基づいて行うことができる。
tf=文中の単語出現数/文中の総単語数
idf(t)=log(全登録文書数/単語の出現する文書数)+1
本実施の形態では、この手法を採用して、単語の重要度を計算する。
【0104】
例えば、文書ID=3検索キーワード拡張ありの場合、
「乗用車」のtf・idf値=0.0615×1.0414=0.064
となり、
「事故」のtf・idf値=0.0231×1.0414=0.024
となる。
【0105】
文書の重要度は、ベクトル空間モデルなどを利用することも考えられるが、ここでは単純に加算した値を文書の重要度(類似度)とする。
【0106】
その結果、文書3の重要度は、“0.088”となる。
【0107】
同様に、キーワード拡張なしの場合、
「乗用車」のtf・idf値=0.0385×1.5643=0.060
となり、
「事故」のtf・idf値=0.0231×1.1963=0.028
となる。
【0108】
その結果、文書3の重要度は、“0.088”となる。
【0109】
図32は、各文書毎に重要度を算出した結果の一例を示す図である。
【0110】
このようにして、拡張キーワードを考慮した検索を行うことにより、より精度の高い検索結果を得ることができる。
【0111】
(第4の実施の形態)
本発明の第4の実施の形態に係る情報検索方法は、更にデータの詳細化を進め、文書の情報だけではなく出現する単語個々の情報を格納するようにしたものである。
【0112】
単語個別の情報として、係り受けの関係、単語出現位置などを格納する例を説明する。例えば「自動車の事故が多く起きる道路」は、文構造の解析などを行うことによって、図33のような構造を持つことがわかる。これから、次のような情報を得ることができる。[自動車−事故]の間には、係り受け構造が存在し、[連体修飾]の関係を持っている。この関係をデータに表現する場合、以下のようなデータ形式で格納する。例えば、文書ID=11のデータを登録するときには、
文書ID{(単語情報)、(単語情報)、…}
というような形式で格納する。すなわち、文書IDに対して複数の単語情報を保持することが可能である。
【0113】
更に、単語情報は、
(出現位置、係り受け関係、(グループ単語情報、個別単語情報))
のような形式で格納する。
【0114】
図34は、本実施の形態で作成された検索用データの一例を示す図である。
【0115】
このようにして、単語の係り受け関係や、出現位置など単語個々に関する情報を詳細に格納していくことによって、検索時にはより精度の高い結果を高速に得ることができる。
【0116】
(第5の実施の形態)
本発明の第5の実施の形態に係る情報検索方法は、前記第1の実施の形態に係る情報検索方法に対して、検索用データのフォーマットの異なったものを用いた点が異なっている。
【0117】
図35は、前記図12に対応するものであり、前記図1の文書Aの情報を登録する前の検索用データの一例を示す図である。
【0118】
図35に示すように、本実施の形態の検索用データは、図12の見出し2の情報を文書データ内に取り込み、文書IDデータに対応付けることによって構成している。
【0119】
図36は、前記図13に対応し、上記文書Aを図35の文書検索用データへ登録するときの処理を説明するための図である。図36の登録処理と、図13の登録処理との違いは、登録方法の違いではなく、単に検索用データのフォーマットの違いに起因するものである。
【0120】
図37は、前記図14に対応し、図35の検索用データに文書Aを登録した登録結果を示す図である。
【0121】
図38は、前記図20に対応し、検索対象データの一例を示す図である。
【0122】
図39は、前記図21に対応し、グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。図21の処理は、検索用データをグループ単語情報「車」および個別単語情報「乗用車」で同時に検索したのに対して、図39の処理は、まず、検索用データをグループ単語情報「車」で検索して、グループ単語情報「車」に含まれる文書データを取得し、次に、その文書データから、個別単語情報「乗用車」に一致するものを取得する点が異なっている。しかし、この違いも、検索方法の違いではなく、単に検索用データのフォーマットの違いに起因するものである。
【0123】
図40は、前記図30に対応し、前記図29のデータに基づいて作成された登録用データの一例を示す図である。
【0124】
図41は、前記図31に対応し、単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【0125】
図42は、前記図34に対応し、更にデータの詳細化を進め、文書の情報だけではなく出現する単語個々の情報を格納するようにしたものである。
【0126】
このような検索用データのフォーマットを用いても、前記第1の実施の形態と同様な処理を行うことができる。
【0127】
なお、上述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0128】
この場合、記憶媒体から読出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0129】
プログラムコードを供給するための記憶媒体としては、たとえば、フレキシブルディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、通信ネットワークを介してサーバコンピュータからプログラムコードが供給されるようにしてもよい。
【0130】
また、コンピュータが読出したプログラムコードを実行することにより、上述した各実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0131】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0132】
以下、本発明の実施態様の例を列挙する。
【0133】
(実施態様1) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、
該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、
該単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索ステップと、
前記単語情報取得ステップによって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索ステップと
を有することを特徴とする情報検索方法。
【0134】
(実施態様2) 検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報を取得する一方、前記指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報を取得する文書特定情報取得ステップをさらに有することを特徴とする実施態様1に記載の情報検索方法。
【0135】
(実施態様3) 前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報と、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報とに対して、それぞれ異なった値の重要度を付与する付与ステップをさらに有することを特徴とする実施態様1に記載の情報検索方法。
【0136】
(実施態様4) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報に対して、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様3に記載の情報検索方法。
【0137】
(実施態様5) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の検索ステップによって検索された検索用データに含まれる文書特定情報に対して、前記第1の検索ステップによって検索された検索用データに含まれる文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様3に記載の情報検索方法。
【0138】
(実施態様6) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、
前記グループ単語情報を見出しとし、前記個別単語情報および該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、
該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、
前記単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する検索ステップと、
該検索ステップによって検索された検索用データに含まれる文書特定情報を取得する第1の取得ステップと、
前記検索ステップによって検索された検索用データに含まれる個別単語情報と、前記取得ステップによって取得された個別単語情報とを比較し、両個別単語情報が一致する検索用データに含まれる文書特定情報を取得する第2の取得ステップと
を有することを特徴とする情報検索方法。
【0139】
(実施態様7) 検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の取得ステップによって取得された文書特定情報を取得する一方、前記指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の取得ステップによって取得された文書特定情報を取得する文書特定情報取得ステップをさらに有することを特徴とする実施態様6に記載の情報検索方法。
【0140】
(実施態様8) 前記第1の取得ステップによって取得された文書特定情報と、前記第2の取得ステップによって取得された文書特定情報とに対して、それぞれ異なった値の重要度を付与する付与ステップをさらに有することを特徴とする実施態様6に記載の情報検索方法。
【0141】
(実施態様9) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されたときには、前記第1の取得ステップによって取得された文書特定情報に対して、前記第2の取得ステップによって取得された文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様8に記載の情報検索方法。
【0142】
(実施態様10) 前記付与ステップでは、検索キーワードを拡張するか否かを指示する指示手段によって、検索キーワードの拡張が指示されないときには、前記第2の取得ステップによって取得された文書特定情報に対して、前記第1の取得ステップによって取得された文書特定情報に対してより重要度の高い値を付与することを特徴とする実施態様8に記載の情報検索方法。
【0143】
(実施態様11) 前記重要度は、予め設定された固定値であることを特徴とする実施態様3〜5または8〜10のいずれかに記載の情報検索方法。
【0144】
(実施態様12) 前記重要度は、ユーザによって設定可能なユーザ設定値であることを特徴とする実施態様3〜5または8〜10のいずれかに記載の情報検索方法。
【0145】
(実施態様13) 前記重要度は、検索結果の数に応じて変動する変動値であることを特徴とする実施態様3〜5または8〜10のいずれかに記載の情報検索方法。
【0146】
(実施態様14) 前記付与ステップによって付与された重要度に基づいて、文書特定情報を取得する文書特定情報取得ステップをさらに有することを特徴とする実施態様3〜5または8〜13のいずれかに記載の情報検索方法。
【0147】
(実施態様15) 前記グループ単語情報は、当該グループに含まれる複数の単語の中から代表する単語を表記したものであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0148】
(実施態様16) 前記グループ単語情報は、当該グループ単語を一意に表すグループ単語IDであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0149】
(実施態様17) 前記個別単語情報は、当該単語を表記したものであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0150】
(実施態様18) 前記個別単語情報は、当該単語を一意に表す単語IDであることを特徴とする実施態様1〜14のいずれかに記載の情報検索方法。
【0151】
(実施態様19) 前記文書特定情報取得ステップによって取得された文書特定情報が前記指定された検索条件に適合する程度を判定する判定ステップをさらに有することを特徴とする実施態様2,7または14のいずれかに記載の情報検索方法。
【0152】
(実施態様20) 前記検索用データには、前記文書特定情報に対応付けて、当該個別単語情報によって特定される単語が該文書中に出現する出現回数も登録され、
前記判定ステップでは、前記取得された文書特定情報に対応付けられた出現回数に基づいて判定する
ことを特徴とする実施態様19に記載の情報検索方法。
【0153】
(実施態様21) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶手順と、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶手順と、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手順と、
該抽出手順によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手順と、
該単語情報取得手順によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索手順と、
前記単語情報取得手順によって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索手順とをコンピュータに実行させるためのプログラム。
【0154】
(実施態様22) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶手順と、
前記グループ単語情報を見出しとし、前記個別単語情報および該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶手順と、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手順と、
該抽出手順によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手順と、
前記単語情報取得手順によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する検索手順と、
該検索手順によって検索された検索用データに含まれる文書特定情報を取得する第1の取得手順と、
前記検索手順によって検索された検索用データに含まれる個別単語情報と、前記取得手順によって取得された個別単語情報とを比較し、両個別単語情報が一致する検索用データに含まれる文書特定情報を取得する第2の取得手順と
をコンピュータに実行させるためのプログラム。
【0155】
(実施態様23) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを記憶する第1の記憶手段と、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを記憶する第2の記憶手段と、
文字情報からなる検索条件を指定する指定手段と、
該指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手段と、
該抽出手段によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手段と、
該単語情報取得手段によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索手段と、
前記単語情報取得手段によって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索手段とを有することを特徴とする情報検索装置。
【0156】
(実施態様24) 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを記憶する第1の記憶手段と、
前記グループ単語情報を見出しとし、前記個別単語情報および該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを記憶する第2の記憶手段と、
文字情報からなる検索条件を指定する指定手段と、
該指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出手段と、
該抽出手段によって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得手段と、
前記単語情報取得手段によって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する検索手段と、
該検索手段によって検索された検索用データに含まれる文書特定情報を取得する第1の取得手段と、
前記検索手段によって検索された検索用データに含まれる個別単語情報と、前記取得手段によって取得された個別単語情報とを比較し、両個別単語情報が一致する検索用データに含まれる文書特定情報を取得する第2の取得手段と
を有することを特徴とする情報検索装置。
【0157】
【発明の効果】
以上説明したように、本発明によれば、自然文による検索を行なうときの検索漏れを解消することができ、また、論理式入力時の検索者の負担を軽くすることができるために、操作性を大幅に向上することができる。
【0158】
さらに、検索漏れを防ぐために、キーワードの拡張を指定した場合においても、同義語や類義語によるキーワードの拡張を行なわないので、検索処理を最小限に抑えることができる、これにより、検索速度の高速化を実現することができる。
【0159】
また、キーワードの拡張を指定しない場合においても、グループ単語を検索することによって、重要度の低い情報としてキーワードに完全一致しない語を検索結果として出力することが可能であるために、検索漏れを防いだ高精度な検索を高速に実現することが可能となる。
【0160】
また、本発明によれば、システム内で単語の扱いは文字列ではなくIDであるために、検索用データや内部処理に要するメモリを節約することができるほか、検索用データの検索処理や、検索用データへの追加登録処理において、高速に処理を実行することが可能となる。
【0161】
さらに、本発明によれば、高速に妥当性の高い文書から提示できるために検索結果が多数存在した場合においても、検索者の探したい情報をより早く得ることが可能となり、操作性の向上という効果を得ることができる。
【0162】
また、本発明によれば、単語の個別の情報を持たせることにより、より精度の高い検索結果を得ることが可能となる。
【0163】
また、本発明の特徴として、キーワードの拡張を行なう場合とキーワードの拡張を行なわない場合どちらの場合においても、高速な検索を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索方法を適用した情報検索装置の概略構成を表すブロック図である。
【図2】図1の情報検索装置を構築する他の環境の一例として挙げた、ローカルなネットワーク環境を示す図である。
【図3】図1の情報検索装置を構築する他の環境の一例として挙げた、インターネット環境を示す図である。
【図4】図1の情報検索装置が実行する文書登録処理の手順を示すフローチャートである。
【図5】図4のキーワードの単語情報取得処理の詳細な手順を示すフローチャートである。
【図6】図4の文書ID付与処理を説明するための図である。
【図7】図4の登録対象文書からキーワードを抽出する処理を説明するための図である。
【図8】単語情報データの一例を表した図である。
【図9】キーワードが単語情報データに存在する場合の処理例を説明するための図である。
【図10】キーワードが単語情報データに存在しない場合の処理例を説明するための図である。
【図11】入力キーワードと該入力キーワードに対して、図8の単語情報データに基づいて取得したグループ単語情報および個別単語情報の一例を示す図である。
【図12】文書Aの情報を登録する前の検索用データの一例を示す図である。
【図13】検索用データへの登録処理例を説明するための図である。
【図14】図12の検索用データに文書Aの情報を登録した登録結果を示す図である。
【図15】図1の情報検索装置が実行する文書検索処理の手順を示すフローチャートである。
【図16】図15の検索条件入力の一例を示す図である。
【図17】図15のキーワード抽出処理の詳細な手順を示すフローチャートである。
【図18】自然文を指定した場合の検索条件文字列から検索キーワードを抽出する処理を示す図である。
【図19】図15の単語情報取得処理の一例を示す図である。
【図20】検索対象データの一例を示す図である。
【図21】グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。
【図22】検索結果の一例を示す図である。
【図23】重要度を各文書IDに対して付与した結果の一例を示す図である。
【図24】検索結果の判定処理の一例を示す図である。
【図25】検索結果の一例を示す図である。
【図26】重要度を各文書IDに対して付与した結果の一例を示す図である。
【図27】検索結果の判定処理の一例を示す図である。
【図28】検索結果の一例を示す図である。
【図29】それぞれのキーワードに固有なIDを個別単語情報として付与し、それぞれがどのグループ単語に属するかを表した単語情報データの一例を示す図である。
【図30】図29のデータに基づいて作成された登録用データの一例を示す図である。
【図31】単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【図32】各文書毎に重要度を算出した結果の一例を示す図である。
【図33】「自動車の事故が多く起きる道路」に対して文構造の解析を行った結果の一例を示す図である。
【図34】本発明の第4の実施の形態で作成された検索用データの一例を示す図である。
【図35】本発明の第5の実施の形態において、図1の文書Aの情報を登録する前の検索用データの一例を示す図である。
【図36】文書Aを図35の文書検索用データへ登録するときの処理を説明するための図である。
【図37】図35の検索用データに図36の登録処理によって登録した登録結果を示す図である。
【図38】本発明の第5の実施の形態において、検索対象データの一例を示す図である。
【図39】本発明の第5の実施の形態において、グループ単語情報「車」と個別単語情報「乗用車」を検索した場合の処理の一例を示す図である。
【図40】本発明の第5の実施の形態において、図29のデータに基づいて作成された登録用データの一例を示す図である。
【図41】本発明の第5の実施の形態において、単語の出現頻度および文書の長さを加味した検索用データの一例を示す図である。
【図42】本発明の第5の実施の形態において、更にデータの詳細化を進め、文書の情報だけではなく出現する単語個々の情報を格納するようにしたものである。
【図43】従来の第1の情報検索方法を説明するための図である。
【図44】従来の第2の情報検索方法を説明するための図である。
【図45】従来の第3の情報検索方法を説明するための図である。
【符号の説明】
1 入力装置
2 CPU
3 出力装置
4 記憶装置
41 処理プログラム
42 単語情報データ
43 検索用データ
Claims (1)
- 個々の単語を特定するための個別単語情報と、所定の意味を持つ複数の単語を、少なくとも1つにまとめたグループ単語情報とからなる単語情報データを第1の記憶手段に記憶させる第1の記憶ステップと、
前記個別単語情報および前記グループ単語情報を見出しとし、該個別単語情報によって特定される単語を含む文書を特定するための文書特定情報を含む検索用データを第2の記憶手段に記憶させる第2の記憶ステップと、
文字情報からなる検索条件を指定する指定手段によって指定された検索条件から検索キーワードとなる単語を抽出する抽出ステップと、
該抽出ステップによって抽出された検索キーワードに基づいて、前記第1の記憶手段に記憶された単語情報データを参照することにより、対応する個別単語情報およびグループ単語情報を取得する単語情報取得ステップと、
該単語情報取得ステップによって取得されたグループ単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第1の検索ステップと、
前記単語情報取得ステップによって取得された個別単語情報を検索キーワードとして、前記第2の記憶手段に記憶された検索用データを検索する第2の検索ステップと
を有することを特徴とする情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003109141A JP2004318328A (ja) | 2003-04-14 | 2003-04-14 | 情報検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003109141A JP2004318328A (ja) | 2003-04-14 | 2003-04-14 | 情報検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004318328A true JP2004318328A (ja) | 2004-11-11 |
Family
ID=33470399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003109141A Pending JP2004318328A (ja) | 2003-04-14 | 2003-04-14 | 情報検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004318328A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158564A (ja) * | 2006-12-20 | 2008-07-10 | Toyota Motor Corp | 情報検索装置 |
JP2008282322A (ja) * | 2007-05-14 | 2008-11-20 | Sony Ericsson Mobilecommunications Japan Inc | 情報処理装置及び情報処理方法 |
JP2009294836A (ja) * | 2008-06-04 | 2009-12-17 | Yahoo Japan Corp | Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム |
JP2014052985A (ja) * | 2012-09-10 | 2014-03-20 | Ricoh Co Ltd | レポート作成システム、自然言語処理装置、レポート作成装置及びプログラム |
-
2003
- 2003-04-14 JP JP2003109141A patent/JP2004318328A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158564A (ja) * | 2006-12-20 | 2008-07-10 | Toyota Motor Corp | 情報検索装置 |
JP2008282322A (ja) * | 2007-05-14 | 2008-11-20 | Sony Ericsson Mobilecommunications Japan Inc | 情報処理装置及び情報処理方法 |
JP2009294836A (ja) * | 2008-06-04 | 2009-12-17 | Yahoo Japan Corp | Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム |
JP2014052985A (ja) * | 2012-09-10 | 2014-03-20 | Ricoh Co Ltd | レポート作成システム、自然言語処理装置、レポート作成装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US7647303B2 (en) | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3178421B2 (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5204203B2 (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2008052548A (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
JPH0844771A (ja) | 情報検索装置 | |
JP2004318328A (ja) | 情報検索方法 | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP4783563B2 (ja) | インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
JP2002132789A (ja) | 文書検索方法 | |
JP2003228578A (ja) | 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム | |
JP2002215672A (ja) | 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム |