JP4037859B2 - 全文検索システム及び方法 - Google Patents

全文検索システム及び方法 Download PDF

Info

Publication number
JP4037859B2
JP4037859B2 JP2004284673A JP2004284673A JP4037859B2 JP 4037859 B2 JP4037859 B2 JP 4037859B2 JP 2004284673 A JP2004284673 A JP 2004284673A JP 2004284673 A JP2004284673 A JP 2004284673A JP 4037859 B2 JP4037859 B2 JP 4037859B2
Authority
JP
Japan
Prior art keywords
search
morpheme
result
full
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004284673A
Other languages
English (en)
Other versions
JP2006099427A (ja
Inventor
勝彦 高知尾
光一 笹氣
陽二 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2004284673A priority Critical patent/JP4037859B2/ja
Priority to CNB2005101080095A priority patent/CN100412864C/zh
Publication of JP2006099427A publication Critical patent/JP2006099427A/ja
Application granted granted Critical
Publication of JP4037859B2 publication Critical patent/JP4037859B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子化された膨大な文書情報の中から、指定された検索条件に合致する文書を全文検索技術により高速に検索するのに好適な全文検索システム及び方法に関する。
電子化された膨大な文書情報の中から、指定された検索条件に合致する文書を検索する検索システムが従来から種々開発されている。この種の検索システムで適用される文書検索の代表的な検索手法として、全文検索(フルテキスト検索)に用いられるNグラム(N-gram)インデックスによる検索手法、或は自然言語検索(概念検索)に用いられる形態素による検索手法が知られている。これらの検索手法の概要は次の通りである。
[Nグラムインデックスによる検索手法]
文書中に現れるすべての文字を予め定められた長さNの連続する文字列(グラム)としてインデックスに登録する。検索時にも同様に検索の対象となる検索文字列(検索単語)を長さNとなる文字列(グラム)に分割し、インデックスから同じ文字列の出現情報を得ることで検索を行う。
Nグラムインデックスによる検索では、まず、検索単語から分割された長さNの文字列に一致する文字列の有無(つまりヒットの有無)のみで候補文書を選別する一次検索が行われる。その後、語の隣接関係を調べることで、検索単語が含まれる文書に絞り込む二次検索が行われる。このように、Nグラムインデックスによる検索では、一次検索と二次検索との2段階の検索により、漏れのない全文検索が実現される。
一次検索の検索精度を上げるには、NグラムのN値を大きくすれば良いことが知られている。しかし、N値を大きくすると、インデックスが極端に大きくなるため、検索に多大な時間を要する虞がある。一方、N値を小さくすると検索ノイズが増して、検索精度が低下する。二次検索はヒットしたすべての文書を対象とするため、ヒット件数が多いほど(実際のノイズの多少に拘わらずに)効率が悪くなる。
[形態素インデックスによる検索手法]
文書を解析して、当該文書から意味のある最小の言語単位(形態素)の範囲で、索引付けする形態素(単語)を抽出し、抽出された形態素毎に文書情報を割り当てインデックスに登録する。検索時も同様に検索文字列を形態素に分割し、同じ形態素に一致する文書情報を得ることで検索を行う。
形態素インデックスによる検索では、形態素同士で重なる部分が無いため、インデックスのサイズは小さく、また高速検索が可能である。但し、対象文書と検索条件の形態素結果が一致していない場合には検索漏れが生じる。
このように、Nグラムインデックスによる検索では検索漏れはなく、一時検索は高速であるが、ノイズを除去するための二次検索が遅いという問題がある。一方、形態素インデックスによる検索は、高速検索が可能であるが、検索漏れが生じる問題がある。つまり、全文検索(フルテキスト検索)に用いられるNグラムインデックスによる検索手法と、自然言語検索(概念検索)に用いられる形態素インデックスによる検索手法とは、それぞれ一長一短がある。
そこで、全文検索(フルテキスト検索)と自然言語検索(概念検索)の長所を生かして、検索漏れの少ない文書検索を実現するために、全文検索と自然言語検索との2種の検索を実行し、両検索結果をマージする文書検索手法が提案されている(例えば、特許文献1参照)。この特許文献1に記載の文書検索技術(以下、第1の先行技術と称する)では、全文検索の検索結果の中から、自然言語検索により検索結果を絞り込むことにより、指定されたテキストを含む検索対象から質問文に近い文書を検索する技術、或は自然言語検索の検索結果の中から、全文検索により検索結果を絞り込むことにより、大まかに自然言語検索をして得られた検索結果の中から、指定されたテキストを含む文書を検索する技術が適用される。
このように第1の先行技術は、全文検索と自然言語検索をそれぞれ独立したものとして扱い、両検索結果をマージするものである。具体的には、全文検索及び自然言語検索の一方による検索結果の中から、全文検索及び自然言語検索の他方により検索結果を絞り込むものである。したがって第1の先行技術においては、全文検索と自然言語検索とが必ず実行される。ところが、全文検索は自然言語検索に比べて低速である。このため、全文検索にNグラムインデックスによる検索手法を適用する場合であれば、当該全文検索に、Nグラムインデックスでのトータルの検索実行時間(一次検索時間+二次検索時間)を要する。つまり、第1の先行技術は、全文検索の欠点を解消して当該全文検索そのものを高速化するための仕組みを有していない。このため第1の先行技術は、検索ヒット件数が多い場合に問題となる。
また、「検索式」を前もって評価し、検索式が「キーワード型(全文検索)」であればNグラムインデックスによる全文検索を用い、「自然言語型(概念検索)」であれば形態素インデックスによる検索を用いる文書検索手法も提案されている(例えば、特許文献2参照)。
この特許文献2に記載された文書検索技術(以下、第2の先行技術と称する)では、「キーワード型」と判定されれば、検索処理に、Nグラムインデックスでのトータル検索実行時間(一次検索、二次検索)は要することとなり、第1の先行技術と同様に、全文検索そのものを高速化することにはつながらない。
特開2001−92831号公報(段落0005乃至0010、図5) 特開2003−308335号公報(段落0011)
上記した第1の先行技術においては、全文検索が必ず実行される。また、上記第2の先行技術においても、検索式が「キーワード型(全文検索)」であればNグラムインデックスによる全文検索が実行される。このNグラムインデックスによる全文検索には、多大な時間を要する。しかし、第1及び第2の先行技術のいずれも、全文検索そのものを高速化するための仕組みを有していない。
本発明は上記事情を考慮してなされたものでその目的は、Nグラムインデックスによる一次検索と形態素インデックスによる検索とを行い、両検索結果が近似している場合にNグラムインデックスによる二次検索を省くことで、検索精度をある程度確保しながら、全文検索を高速に実行できる全文検索システム及び方法を提供することにある。
本発明の1つの観点によれば、Nグラムインデックスによる検索を一次検索と当該一次検索結果に対する二次検索とにより実行する第1の検索手段と、検索条件文を形態素解析する形態素解析手段と、この形態素解析手段による形態素解析結果に基づいて形態素インデックスによる形態素検索を実行する第2の検索手段とを備えた全文検索システムが提供される。このシステムは、上記Nグラムインデックスによる一次検索のヒット件数と上記形態素インデックスによる形態素検索のヒット件数との近似度を判定する近似度判定手段と、上記Nグラムインデックスによる一次検索のヒット件数と上記形態素インデックスによる形態素検索のヒット件数とが近似していると上記近似度判定手段によって判定された場合、上記Nグラムインデックスによる二次検索が省略されるように上記第1の検索手段を制御して、上記一次検索の結果または上記形態素検索の結果を検索結果として採用する全文検索実行制御手段とを備える。
上記の構成においては、形態素インデックスによる検索の結果であるヒット件数を評価値として用い、当該形態素インデックスによる検索のヒット件数とNグラムインデックスによる一次検索のヒット件数とが近似している場合に、Nグラムによる二次検索を省くことで、ある程度の検索精度を確保しながら、高速検索を実現することができる。
ここで、形態素解析手段による形態素解析結果に基づいて上記検索条件文が形態素検索可能な単語に分割できたかを判定する形態素解析結果判定手段を追加し、検索条件文が形態素検索可能な単語に分割できたと判定された場合に限り、上記形態素インデックスによる形態素検索が実行されるように上記全文検索実行制御手段が上記第2の検索手段を制御する構成とすると良い。
検索条件文が形態素検索可能な単語に分割できたということは、形態素解析結果と形態素インデックスに含まれる形態素との単語の分割のされ方が多くの場合同じであることが予想される。したがって、このときの形態素解析結果を用いて形態素インデックスによる形態素検索が行われた場合、評価値としての形態素インデックス検索結果(ヒット件数)の精度(信頼性)、つまり近似度判定手段による近似度判定の精度(信頼性)を、ある程度保証することができる。
また、上記一次検索の結果または上記形態素検索の結果のいずれを検索結果として採用するかが、上記形態素解析手段の解析結果の単語数(検索条件文が分割された単語数)と基準の単語数とに基づいて決定される構成とすると良い。
このような構成において、形態素解析の結果の単語数が少ない(例えば1単語の)場合、形態素検索の検索漏れは殆どないことが期待されることから、形態素検索の結果の方が一次検索の結果よりも精度がより高いと見なすことができる。したがって、形態素解析の結果の単語数と基準の単語数とに基づいて、一次検索の結果または形態素検索の結果のいずれを検索結果として採用するかを決定することにより、より精度の高い検索結果を採用することができる。
また、一次検索のヒット件数を基準のヒット件数と比較し、一次検索のヒット件数が基準のヒット件数よりも少ない場合には、Nグラムインデックスによる二次検索が実行される構成とすると良い。一次検索のヒット件数が少ない場合、二次検索を行っても検索性能に影響を与えない。したがって、一次検索のヒット件数が少ない場合には、二次検索を行うことで、検索性能に影響を及ぼすことなく、より一層精度の高い検索を実現できる。
ここで、上記基準の単語数をユーザにより指定可能とするためのユーザインタフェースを追加するならば、検索条件文に応じたチューニングが可能となる。また、上記基準のヒット件数をユーザにより指定可能とするためのユーザインタフェースを追加するならば、利用者の環境に応じたチューニングが可能となる。また、上記近似度判定手段による判定の基準となる近似度をユーザにより指定可能とするためのユーザインタフェースを追加するならば、検索条件文、或は検索の対象となる文書群の特徴に応じたチューニングが可能となる。
また、いかなる場合もNグラムインデックスによる二次検索まで行う標準検索、または上記近似度判定手段による判定結果に基づいてNグラムインデックスによる二次検索が省略される可能性のある高速検索のいずれか一方をユーザにより指定可能とするためのユーザインタフェースを追加すると良い。このようにすると、検索速度を優先するか、或は検索精度を優先するかに対するユーザの意志を反映することが可能となる。
また、Nグラムインデックスによる一次検索と形態素インデックスによる形態素検索とが並列に実行されるように、上記全文検索実行制御手段が上記第1の検索手段と上記第2の検索手段とをそれぞれ制御する構成とすると良い。このようにすると、より高速な検索が可能となる。
本発明によれば、Nグラムインデックスによる一次検索と形態素インデックスによる検索とを行い、両検索結果が近似している場合にNグラムインデックスによる二次検索を省くことによって、検索精度をある程度確保しながら、全文検索を高速に実行することができる。
以下、本発明の一実施形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る全文検索システムの構成を示すブロック図である。この全文検索システムは、利用者の要求に応じて、Nグラムインデックスによる全文検索及び自然言語検索(形態素インデックスによる検索)を行うシステムである。但し、図1の全文検索システムは、一定の条件を満たした場合、全文検索の一部(Nグラムインデックスによる二次検索)が省略される。
図1の全文検索システムは、ユーザインタフェース11と、検索実行/応答サーバ12と、Nグラム検索エンジン13と、Nグラムインデックスデータベース14と、形態素解析機構15と、形態素検索エンジン16と、形態素インデックスデータベース17と、全文検索実行制御機構18とから構成される。
ユーザインタフェース11は、ユーザからの検索要求を受け付けると共に検索結果をユーザに提示するインタフェース機能を有する。本実施形態において、ユーザインタフェース11は、全文検索システムの一部を構成しているが、これに限るものではない。例えば、ユーザインタフェース11が、図1の全文検索システムと通信回線(例えばネットワーク)を介して接続されたクライアント端末に設けられる構成であっても構わない。
検索実行/応答サーバ12は、ユーザインタフェース11により受け付けられた検索要求の示す検索条件を、Nグラムインデックスによる検索または形態素による検索(に必要な形態素解析)のために、Nグラム検索エンジン13または形態素解析機構15に渡す。検索実行/応答サーバ12はまた、Nグラム検索エンジン13または形態素解析機構15による検索結果をユーザインタフェース11によってユーザに提示させる。
Nグラム検索エンジン13は、Nグラムインデックスデータベース14に格納されているNグラムインデックスを用いて全文検索を行う。Nグラム検索エンジン13は、一次検索実行部131と二次検索実行部132とを含む。一次検索実行部131は、Nグラムインデックスによる一次検索を行う。二次検索実行部132は、Nグラムインデックスによる二次検索を行う。Nグラムインデックスデータベース14に格納されるNグラムインデックスには、検索の対象となり得る文書中に現れるすべての文字を予め定められた長さNの連続する文字列(グラム)として、その文字列毎に、その文字列の位置情報が登録されている。
形態素解析機構15は、検索条件を形態素解析する。形態素検索エンジン16は、形態素解析機構15による形態素解析結果に従い、形態素インデックスデータベース17に格納されている形態素インデックスを用いて形態素検索を行う。形態素インデックスデータベースに格納される形態素インデックスには、検索の対象となり得る文書から抽出された形態素毎に割り当てられた、位置情報を含む文書情報が登録されている。
全文検索実行制御機構18は、Nグラムインデックスを用いた全文検索を高速に実行するために、設定情報ファイル19の設定内容に従ってNグラム検索エンジン13及び形態素検索エンジン16を制御する。設定情報ファイル19には、全文検索実行制御機構18による全文検索の実行の制御に必要な条件等の情報が設定されている。
全文検索実行制御機構18は、形態素解析結果判定部181と一次検索結果数判定部182と検索結果数近似度判定部183とを含む。形態素解析結果判定部181は、形態素解析機構15による検索条件に対する形態素解析結果に基づいて、形態素インデックスによる検索(形態素検索)またはNグラムインデックスによる二次検索のいずれを実行すべきかを決定する。一次検索結果数判定部182は、Nグラムインデックスによる一次検索結果に基づいて、Nグラムインデックスによる二次検索を実行すべきかを決定する。検索結果数近似度判定部183は、Nグラムインデックスによる一次検索結果と形態素検索結果とに基づいて、Nグラムインデックスによる二次検索を実行すべきかを決定する。
次に、図1の全文検索システムにおいて実行される高速検索モードでの全文検索処理(高速検索処理)の手順について、図2のフローチャートを参照して説明する。なお、本実施形態では、検索モードとして上記高速検索モードに加えて標準検索モードが用意され、後述するようにユーザによって選択可能なようになっている。
今、全文検索を希望するユーザが、クライアント端末を用いた入力操作を行うことで、当該端末から図1の全文検索システムに対して、全文検索を指定する検索要求が送られたものとする。ユーザインタフェース11は、この検索要求を受け付けて、当該検索要求の示す検索条件を抽出する。ユーザインタフェース11は、抽出された検索条件を検索実行/応答サーバ12に送る。また、ユーザインタフェース11は、検索要求の示す検索種別(例えば全文検索)を検索実行/応答サーバ12に通知する。検索実行/応答サーバ12は、全文検索が指定されている場合には、全文検索を実行するために、ユーザインタフェース11から渡された検索条件をNグラム検索エンジン13に送る。
Nグラム検索エンジン13内の一次検索実行部131は、検索実行/応答サーバ12から送られた検索条件に従い、Nグラムインデックスデータベース14に格納されているNグラムインデックスを用いて、周知の一次検索を実行する(ステップS1)。一次検索実行部131は、一次検索結果をNグラム検索エンジン13内部に保持すると共に、検索でヒットした数(ヒット件数)N1を、対応する検索条件と共に全文検索実行制御機構18へ送る。
全文検索実行制御機構18内の一次検索結果数判定部182は、一次検索実行部131から送られたヒット件数N1を設定情報ファイル19に設定されているヒット件数閾値Kと比較し、その大小を判定する(ステップS2)。もし、ヒット件数N1がK以下の場合は、全文検索実行制御機構18はNグラム検索エンジン13に対して二次検索を要求する。Kは、後述するようにユーザの操作により変更(チューニング)可能である。
これに対し、ヒット件数N1がKより大きい場合は、一次検索結果数判定部182はヒット件数N1を全文検索実行制御機構18の内部に保持した後、検索条件を形態素解析機構15に送る。形態素解析機構15は、一次検索結果数判定部182から検索条件を受け取ると、当該検索条件を形態素解析する(ステップS3)。そして形態素解析機構15は、形態素解析した結果を全文検索実行制御機構18へ送る。
全文検索実行制御機構18内の形態素解析結果判定部181は、形態素解析機構15による形態素解析結果を判定する(ステップS4)。即ち形態素解析結果判定部181は、検索条件が形態素インデックスによる検索(形態素検索)が可能な単語、つまり、それ自体で意味のある単語(例えば、名詞、動詞、形容詞に代表される自立語)に分割できたかを判定する。もし、検索条件が形態素検索可能な単語に分割できなかった場合、全文検索実行制御機構18はNグラム検索エンジン13に対して二次検索を要求する。
これに対し、検索条件が形態素検索可能な単語に分割できた場合には、形態素解析結果判定部181は形態素解析機構15による形態素解析結果を形態素検索エンジン16へ送る。形態素検索エンジン16は、形態素解析結果判定部181から形態素解析結果を受け取ると、当該形態素解析結果と形態素インデックスデータベース17とを用いて、形態素検索を行う(ステップS5)。そして形態素解析機構15は、形態素検索結果を当該形態素解析機構15内部に保持すると共に、検索でヒットした数(ヒット件数)N2を全文検索実行制御機構18に送る。
全文検索実行制御機構18内の検索結果数近似度判定部183は、全文検索実行制御機構18内部に保持されているNグラム検索エンジン13(内の一次検索実行部131)による一次検索でのヒット件数N1と形態素検索エンジン16から送られた形態素検索でのヒット件数N2とが近似している(N1≒N2)かを判定する(ステップS6)。ここでは、検索結果数近似度判定部183は、N1とN2との近似度(%)が、設定情報ファイル19に設定されている近似度設定値P(%)以内であるかを判定する。本実施形態において、N1とN2との近似度は、|N1−N2|×100%/N1または|N1−N2|×100%/N2、つまりN1とN2との差分の絶対値のN1またはN2に対する割合(%)で示され、値が小さいほどN1とN2とが近似していることを表す。近似度設定値Pは、後述するようにユーザの操作によりチューニング可能である。
検索結果数近似度判定部183は、N1とN2との近似度がPを超えている場合は、N1とN2とは近似していないものと判定する。この場合、全文検索実行制御機構18はNグラム検索エンジン13に対して二次検索を要求する。
これに対し、N1とN2との近似度がP以内である場合は、検索結果数近似度判定部183はN1とN2とは近似しているものと判定する。この場合、全文検索実行制御機構18は、設定情報ファイル19に設定されている情報に従い、Nグラム検索優先か形態素検索優先かを決定する。Nグラム検索優先の場合、全文検索実行制御機構18はNグラム検索エンジン13に対して内部保持してある一次検索結果を検索実行/応答サーバ12に返答するように要求する。これに対し、形態素検索優先の場合には、全文検索実行制御機構18は、形態素検索エンジン16に対して内部保持してある形態素検索結果を検索実行/応答サーバ12に返答するように要求する。つまり検索結果数近似度判定部183は、一次検索または形態素検索による検索結果を検索実行/応答サーバ12に応答させる(ステップS7)。
検索実行/応答サーバ12は、一次検索または形態素検索による検索結果を全文検索実行制御機構18または形態素検索エンジン16から受け取ると、その検索結果をユーザインタフェース11(及び検索アプリケーション)を介してユーザに通知する。この検索結果には、どのような判定により検索が実行されたかを示す情報が付加されている。
このように本実施形態では、(a1)Nグラムによる一次検索でのヒット件数N1がKを超えていて、且つ(a2)検索条件が形態素検索可能な単語に分割でき、且つ(a3)Nグラムによる一次検索でのヒット件数N1と形態素検索でのヒット件数N2とが近似している(N1≒N2の)場合には、Nグラムによる二次検索の実行が省略されて、検索要求に対する検索結果として、一次検索または形態素検索による検索結果が採用される。しかし、上記(a1),(a2),(a3)の条件のうちの(a3)の条件さえ満たすならば、Nグラムによる二次検索の実行を省略しても、ある程度の検索精度を確保し得る。そこで、少なくとも(a3)の条件を満たす場合に、Nグラムによる二次検索の実行を省略するようにしても構わない。いずれの場合にも、検索精度の低下を抑えながら、Nグラムによる二次検索を省くことで、全文検索の高速化を実現できる。但し、上記(a1)の条件を満たさない場合には、たとえNグラムによる二次検索を行っても、性能への影響が少ないことから、二次検索を省く利点は少ない。また、上記(a2)の条件を満たさない場合には、(a3)の条件を満たすかの判定の信頼性が低下する。
さて、Nグラム検索エンジン13内の二次検索実行部132は、全文検索実行制御機構18からの二次検索要求を受けた場合のみ、Nグラムインデックスの一次検索結果に対して二次検索を実行する(ステップS8)。前記したように、本実施形態において全文検索実行制御機構18からNグラム検索エンジン13に対して二次検索が要求されるのは、(b1)Nグラムによる一次検索でのヒット件数N1がK以下の場合、(b2)検索条件が形態素検索可能な単語に分割できなかった場合、または(b3)Nグラムによる一次検索でのヒット件数N1と形態素検索でのヒット件数N2とが近似していない場合のいずれかである。上記(b1)の場合、十分高い検索精度を確保するためにNグラムによる二次検索を行っても、検索性能への影響が少ない。上記(b2)または(b3)の場合、形態素検索またはNグラムによる一次検索のみで、ある程度の検索精度を確保できる保証はない。このため本実施形態では、検索性能に影響を及ぼす可能性があっても、十分高い検索精度を確保するためにNグラムによる二次検索が行われる。
さて、本実施形態においてユーザインタフェース11は、全文検索の精度をユーザに選択させる第1の検索インタフェースと、上述した高速検索を実行する際に用いられるチューニングパラメタをユーザに指定させる第2の検索インタフェースとを有する。ユーザインタフェース11は、これらの第1及び第2の検索インタフェースを実現するための検索インタフェース画面をユーザに提示する。図3は、全文検索が指定された場合における検索インタフェース画面の一例を示す。この検索インタフェース画面は検索実行画面の1つであり、検索条件としての例えばキーワードを指定する検索条件フィールド31と、検索実行を指示するための検索ボタン32とに加えて、検索精度選択領域33と、チューニングパラメタ領域34とを含む。
検索精度選択領域33には、高速検索モードを指示するための「高速」選択ボタン331と、標準検索モードを指示するための「標準」選択ボタン332とが配置されている。
・標準
「標準」選択ボタン332が選択されて検索が指示された場合には、標準検索モードでの全文検索処理(標準検索処理)が実行される。ここでは、Nグラムインデックスによる検索(一次及び二次検索)が行われる。この場合、検索結果は完全なものとなるが、検索速度は低下する。
・高速
「高速」選択ボタン331が選択されて検索が指示された場合には、高速検索モードでの全文検索処理(高速検索処理)が実行される。ここでは、上述した図2のフローチャートに従う検索が行われ、Nグラムインデックスによる一次検索結果と形態素による検索結果とが近似している場合には、ある程度の検索精度を確保しながら、高速な検索が可能となる。
チューニングパラメタ領域34には、ヒット件数閾値(基準となるヒット件数)Kを指定するためのヒット件数フィールド341と、近似度設定値(近似割合)Pを指定するための近似割合フィールド342と、採用条件を指定するための採用条件フィールド343とが配置されている。
・ヒット件数
Nグラムインデックスによる一次検索において、検索ヒット件数がヒット件数フィールド341の指定値(ヒット件数閾値K)を超える場合に、Nグラムインデックスによる二次検索が省略可能な複数の条件の1つが成立したとして扱われる。検索ヒット件数がヒット件数フィールド341の指定値に満たない場合には、Nグラムインデックスの一次検索結果に対して二次検索が行われる。つまり、Nグラムインデックスの一次検索でのヒット件数が少ない場合には、二次検索を行っても検索性能に与える影響は少ないことから、二次検索を行って精度の高い完全な検索結果が求められる。
・近似割合
Nグラムインデックスによる一次検索でのヒット件数と、形態素インデックスによる検索でのヒット件数との近似度が、指定近似割合(近似度設定値P)未満の場合に、Nグラムインデックスによる二次検索が省略可能な複数の条件の1つが成立したとして扱われる。上記近似度が指定近似割合を超えている場合には、Nグラムインデックスの一次検索結果に対して二次検索が行われる。つまり、Nグラムインデックスによる一次検索の結果と、形態素インデックスによる検索の結果とがかけ離れている場合には、検索精度が悪いと判断して、Nグラムインデックスによる二次検索が行われる。
・採用条件
Nグラムインデックスによる一次検索でのヒット件数と、形態素インデックスによる検索でのヒット件数とが近似していた場合、どちらの検索結果を採用してもその結果は妥当なものである。しかし、検索条件(キーワード)を形態素解析した結果得られる単語数が最小単語数以下となった場合には、形態素インデックスによる検索がより精度の良いものとなる。そこで、Nグラムインデックスによる一次検索結果または形態素インデックスによる検索結果のどちらを採用するかを決定する条件、つまりNグラム検索優先か形態素検索優先かを決定する条件として、検索条件を形態素解析することによって分割された単語数の基準値(基準単語数)を採用条件フィールド343によって指定可能とする。また、検索条件を形態素解析した結果得られる単語の数が基準単語数を超えている場合には、形態素解析の結果の精度が低く、形態素インデックスによる検索の結果について、ある程度の精度を確保し得る保証はない。そこで、検索条件を形態素解析した結果得られる単語の数が基準単語数以下であるかの判定を、例えば上記ステップS4に加え、基準単語数を超えている場合には、Nグラムインデックスによる二次検索が行われるようにすると良い。一方、検索条件を形態素解析した結果得られる単語の数が基準単語数以下で、且つ上記(a1),(a2),(a3)の条件を満たす場合に、Nグラムインデックスによる二次検索が省略される構成とするならば、特に長い検索条件が指定された場合の検索時間の点で有効となる。
図4は、検索実行/応答サーバ12によってユーザインタフェース11を介してユーザに通知される検索結果画面の一例を示す。この検索インタフェース画面は検索実行画面の1つであり、図3に示されている検索インタフェース画面と共通の、検索条件フィールド31、検索ボタン32、検索精度選択領域33及びチューニングパラメタ領域34に加えて、検索精度領域41及び検索結果領域42とを含む。
上述したように、高速検索処理が実行された場合、図2のフローチャートに従い、Nグラムインデックス及び形態素インデックスによる両検索結果とチューニングパラメタの情報とに基づいて、検索結果画面の検索結果領域42を介してユーザに通知される検索結果が求められる。このユーザに通知される検索結果、つまり検索結果領域42に表示される検索結果は、以下の3種の検索結果
(a)Nグラムインデックスによる検索(一次検索及び二次検索)の結果
(b)形態素インデックスによる検索の結果
(c)Nグラムインデックスによる検索(一次検索のみ)の結果
のいずれか1つである。一方、標準検索処理が実行された場合には、検索結果領域42に表示される検索結果として常に上記(a)の結果が採用される。
高速検索処理が実行された場合、上記(a),(b),(c)のいずれの検索結果が採用されたかが、例えば、対応する「検索精度」を抽象的に表現する用語で検索精度領域41に示される。ここでは、(a),(b),(c)に対応する「検索精度」を抽象的に表現する用語として、それぞれ、「適切」、「やや粗い」、「粗い」が用いられる。
[第1の変形例]
次に、上記実施形態の第1の変形例について、図5のフローチャートを参照して説明する。なお、図5において、高速検索処理の手順を示す図2のフローチャートと等価な部分には、同一符号を付してある。
第1の変形例の特徴は、ステップS1,S2の処理(Nグラムインデックスによる一次検索)とステップS3乃至S5の処理(形態素インデックスによる検索)とが、図2のフローチャートとは逆の順番で実行される点にある。ここでは、検索条件が形態素検索可能な単語に分割できなかった場合(ステップS4)、ステップS1に相当する、Nグラムインデックスによる一次検索が実行される(ステップS11)。
[第2の変形例]
次に、上記実施形態の第2の変形例について、図6のフローチャートを参照して説明する。なお、図6において、図2のフローチャートと等価な部分には、同一符号を付してある。
第2の変形例の特徴は、ステップS1,S2の処理(Nグラムインデックスによる一次検索)とステップS3乃至S5の処理(形態素インデックスによる検索)とが並列に実行される点にある。このように、双方の検索が並列に実行されることで、より高速な検索が可能となる。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係る全文検索システムの構成を示すブロック図。 同実施形態における高速検索モードでの全文検索処理(高速検索処理)の手順を示すフローチャート。 検索インタフェース画面の一例を示す図。 検索結果画面の一例を示す図。 上記実施形態の第1の変形例における高速検索処理の手順を示すフローチャート。 上記実施形態の第2の変形例における高速検索処理の手順を示すフローチャート。
符号の説明
11…ユーザインタフェース、12…検索実行/応答サーバ、13…Nグラム検索エンジン(第1の検索手段)、14…Nグラムインデックスデータベース、15…形態素解析機構、16…形態素検索エンジン(第2の検索手段)、17…形態素インデックスデータベース、18…全文検索実行制御機構、19…設定情報ファイル、33…検索精度選択領域、34…チューニングパラメタ領域、131…一次検索実行部、132…二次検索実行部、181…形態素解析結果判定部、182…一次検索結果数判定部、183…検索結果数近似度判定部、331…「高速」選択ボタン、332…「標準」選択ボタン、341…ヒット件数フィールド、342…近似割合フィールド、343…採用条件フィールド。

Claims (10)

  1. Nグラムインデックスによる検索を一次検索と当該一次検索結果に対する二次検索とにより実行する第1の検索手段と、検索条件文を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析結果に基づいて形態素インデックスによる形態素検索を実行する第2の検索手段とを備えた全文検索システムにおいて、
    前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数との近似度を判定する近似度判定手段と、
    前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数とが近似していると前記近似度判定手段によって判定された場合、前記Nグラムインデックスによる二次検索が省略されるように前記第1の検索手段を制御して、前記一次検索の結果または前記形態素検索の結果を検索結果として採用する全文検索実行制御手段と
    を具備することを特徴とする全文検索システム。
  2. 前記形態素解析手段による形態素解析結果に基づいて前記検索条件文が形態素検索可能な単語に分割できたかを判定する形態素解析結果判定手段を更に具備し、
    前記全文検索実行制御手段は、前記検索条件文が形態素検索可能な単語に分割できたと前記形態素解析結果判定手段によって判定された場合に限り、前記形態素インデックスによる形態素検索が実行されるように前記第2の検索手段を制御することを特徴とする請求項1記載の全文検索システム。
  3. 前記全文検索実行制御手段は、前記形態素解析手段の解析結果によって示される前記検索条件文が分割された単語数と基準の単語数とに基づいて、前記一次検索の結果または前記形態素検索の結果のいずれを検索結果として採用するかを決定することを特徴とする請求項1記載の全文検索システム。
  4. 前記基準の単語数をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項3記載の全文検索システム。
  5. 前記Nグラムインデックスによる一次検索のヒット件数を基準のヒット件数と比較することにより前記一次検索のヒット件数が多いか或は少ないかを判定する一次検索結果数判定手段を更に具備し、
    前記全文検索実行制御手段は、前記一次検索のヒット件数が少ないと前記一次検索結果数判定手段によって判定された場合に、前記Nグラムインデックスによる二次検索が実行されるように前記第1の検索手段を制御して、前記二次検索の結果を検索結果として採用することを特徴とする請求項1記載の全文検索システム。
  6. 前記基準のヒット件数をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項5記載の全文検索システム。
  7. 前記近似度判定手段による判定の基準となる近似度をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項1記載の全文検索システム。
  8. いかなる場合も前記Nグラムインデックスによる二次検索まで行う標準検索、または前記近似度判定手段による判定結果に基づいて前記Nグラムインデックスによる二次検索が省略される可能性のある高速検索のいずれか一方をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項1記載の全文検索システム。
  9. 全文検索実行制御手段は、前記Nグラムインデックスによる一次検索と前記形態素インデックスによる形態素検索とが並列に実行されるように、前記第1の検索手段と前記第2の検索手段とをそれぞれ制御することを特徴とする請求項1記載の全文検索システム。
  10. Nグラムインデックスによる検索を一次検索と当該一次検索結果に対する二次検索とにより実行する第1の検索手段と、検索条件文を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析結果に基づいて形態素インデックスによる形態素検索を実行する第2の検索手段とを備えたシステムに適用される全文検索方法において、
    前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数との近似度を判定するステップと、
    前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数とが近似していると判定された場合、前記Nグラムインデックスによる二次検索が省略されるように前記第1の検索手段を制御するステップと、
    前記Nグラムインデックスによる二次検索が省略された場合、前記一次検索の結果または前記形態素検索の結果を検索結果として採用するステップと
    を具備することを特徴とする全文検索方法。
JP2004284673A 2004-09-29 2004-09-29 全文検索システム及び方法 Active JP4037859B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004284673A JP4037859B2 (ja) 2004-09-29 2004-09-29 全文検索システム及び方法
CNB2005101080095A CN100412864C (zh) 2004-09-29 2005-09-29 全文检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004284673A JP4037859B2 (ja) 2004-09-29 2004-09-29 全文検索システム及び方法

Publications (2)

Publication Number Publication Date
JP2006099427A JP2006099427A (ja) 2006-04-13
JP4037859B2 true JP4037859B2 (ja) 2008-01-23

Family

ID=36239173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004284673A Active JP4037859B2 (ja) 2004-09-29 2004-09-29 全文検索システム及び方法

Country Status (2)

Country Link
JP (1) JP4037859B2 (ja)
CN (1) CN100412864C (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424704C (zh) * 2006-09-30 2008-10-08 华中科技大学 基于密文的全文检索系统
JP5224851B2 (ja) 2008-02-27 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索エンジン、検索システム、検索方法およびプログラム
CN101350835B (zh) * 2008-09-19 2011-12-28 华为终端有限公司 用户选择方法和装置
JP4796108B2 (ja) * 2008-09-26 2011-10-19 株式会社東芝 構造化文書検索装置、方法及びプログラム
JP5178813B2 (ja) * 2010-12-16 2013-04-10 ヤフー株式会社 検索システム及び方法
JP7389437B2 (ja) 2019-10-29 2023-11-30 国立研究開発法人国立循環器病研究センター 脳梗塞治療支援システム
EP4137962A4 (en) 2021-06-30 2024-01-31 Informex, Inc. SEARCH DEVICE, SEARCH METHOD AND RECORDING MEDIUM

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307835A (ja) * 1997-05-08 1998-11-17 Canon Inc 情報処理装置及びその方法
JP2000207404A (ja) * 1999-01-11 2000-07-28 Sumitomo Metal Ind Ltd 文書検索方法及び装置並びに記録媒体
JP3636941B2 (ja) * 1999-07-19 2005-04-06 松下電器産業株式会社 情報検索方法と情報検索装置

Also Published As

Publication number Publication date
CN1755691A (zh) 2006-04-05
CN100412864C (zh) 2008-08-20
JP2006099427A (ja) 2006-04-13

Similar Documents

Publication Publication Date Title
JP5740029B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
US8261237B2 (en) Software tool for detecting plagiarism in computer source code
US11573989B2 (en) Corpus specific generative query completion assistant
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
JPH06266780A (ja) 意味パターン認識による文字列検索方法及びその装置
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
JP4037859B2 (ja) 全文検索システム及び方法
US10102199B2 (en) Corpus specific natural language query completion assistant
KR100691400B1 (ko) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
US9626439B2 (en) Method for searching in a database
KR100795930B1 (ko) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
KR20130045054A (ko) 키워드 추출 및 정련 시스템과 그 방법
JPH09204437A (ja) 文書検索装置
WO2022134824A1 (en) Tuning query generation patterns
US20040054677A1 (en) Method for processing text in a computer and a computer
US8423526B2 (en) Linguistic assistance systems and methods
JP4496797B2 (ja) 文書管理装置および方法
US20150046437A1 (en) Search Method
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
KR101099917B1 (ko) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
WO2016131260A1 (zh) 一种文字处理方法和装置
JP4373478B2 (ja) 文書検索装置及び文書検索方法
JP2007265173A (ja) 情報処理装置、ソフトウェア登録方法およびプログラム
US20080177729A1 (en) Apparatus, method and computer program product for searching document
KR20230097518A (ko) 전자 장치 및 그의 이미지를 추천하는 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071101

R150 Certificate of patent or registration of utility model

Ref document number: 4037859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131109

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350