JP4037859B2 - 全文検索システム及び方法 - Google Patents
全文検索システム及び方法 Download PDFInfo
- Publication number
- JP4037859B2 JP4037859B2 JP2004284673A JP2004284673A JP4037859B2 JP 4037859 B2 JP4037859 B2 JP 4037859B2 JP 2004284673 A JP2004284673 A JP 2004284673A JP 2004284673 A JP2004284673 A JP 2004284673A JP 4037859 B2 JP4037859 B2 JP 4037859B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- morpheme
- result
- full
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書中に現れるすべての文字を予め定められた長さNの連続する文字列(グラム)としてインデックスに登録する。検索時にも同様に検索の対象となる検索文字列(検索単語)を長さNとなる文字列(グラム)に分割し、インデックスから同じ文字列の出現情報を得ることで検索を行う。
文書を解析して、当該文書から意味のある最小の言語単位(形態素)の範囲で、索引付けする形態素(単語)を抽出し、抽出された形態素毎に文書情報を割り当てインデックスに登録する。検索時も同様に検索文字列を形態素に分割し、同じ形態素に一致する文書情報を得ることで検索を行う。
図1は本発明の一実施形態に係る全文検索システムの構成を示すブロック図である。この全文検索システムは、利用者の要求に応じて、Nグラムインデックスによる全文検索及び自然言語検索(形態素インデックスによる検索)を行うシステムである。但し、図1の全文検索システムは、一定の条件を満たした場合、全文検索の一部(Nグラムインデックスによる二次検索)が省略される。
「標準」選択ボタン332が選択されて検索が指示された場合には、標準検索モードでの全文検索処理(標準検索処理)が実行される。ここでは、Nグラムインデックスによる検索(一次及び二次検索)が行われる。この場合、検索結果は完全なものとなるが、検索速度は低下する。
「高速」選択ボタン331が選択されて検索が指示された場合には、高速検索モードでの全文検索処理(高速検索処理)が実行される。ここでは、上述した図2のフローチャートに従う検索が行われ、Nグラムインデックスによる一次検索結果と形態素による検索結果とが近似している場合には、ある程度の検索精度を確保しながら、高速な検索が可能となる。
Nグラムインデックスによる一次検索において、検索ヒット件数がヒット件数フィールド341の指定値(ヒット件数閾値K)を超える場合に、Nグラムインデックスによる二次検索が省略可能な複数の条件の1つが成立したとして扱われる。検索ヒット件数がヒット件数フィールド341の指定値に満たない場合には、Nグラムインデックスの一次検索結果に対して二次検索が行われる。つまり、Nグラムインデックスの一次検索でのヒット件数が少ない場合には、二次検索を行っても検索性能に与える影響は少ないことから、二次検索を行って精度の高い完全な検索結果が求められる。
Nグラムインデックスによる一次検索でのヒット件数と、形態素インデックスによる検索でのヒット件数との近似度が、指定近似割合(近似度設定値P)未満の場合に、Nグラムインデックスによる二次検索が省略可能な複数の条件の1つが成立したとして扱われる。上記近似度が指定近似割合を超えている場合には、Nグラムインデックスの一次検索結果に対して二次検索が行われる。つまり、Nグラムインデックスによる一次検索の結果と、形態素インデックスによる検索の結果とがかけ離れている場合には、検索精度が悪いと判断して、Nグラムインデックスによる二次検索が行われる。
Nグラムインデックスによる一次検索でのヒット件数と、形態素インデックスによる検索でのヒット件数とが近似していた場合、どちらの検索結果を採用してもその結果は妥当なものである。しかし、検索条件(キーワード)を形態素解析した結果得られる単語数が最小単語数以下となった場合には、形態素インデックスによる検索がより精度の良いものとなる。そこで、Nグラムインデックスによる一次検索結果または形態素インデックスによる検索結果のどちらを採用するかを決定する条件、つまりNグラム検索優先か形態素検索優先かを決定する条件として、検索条件を形態素解析することによって分割された単語数の基準値(基準単語数)を採用条件フィールド343によって指定可能とする。また、検索条件を形態素解析した結果得られる単語の数が基準単語数を超えている場合には、形態素解析の結果の精度が低く、形態素インデックスによる検索の結果について、ある程度の精度を確保し得る保証はない。そこで、検索条件を形態素解析した結果得られる単語の数が基準単語数以下であるかの判定を、例えば上記ステップS4に加え、基準単語数を超えている場合には、Nグラムインデックスによる二次検索が行われるようにすると良い。一方、検索条件を形態素解析した結果得られる単語の数が基準単語数以下で、且つ上記(a1),(a2),(a3)の条件を満たす場合に、Nグラムインデックスによる二次検索が省略される構成とするならば、特に長い検索条件が指定された場合の検索時間の点で有効となる。
(a)Nグラムインデックスによる検索(一次検索及び二次検索)の結果
(b)形態素インデックスによる検索の結果
(c)Nグラムインデックスによる検索(一次検索のみ)の結果
のいずれか1つである。一方、標準検索処理が実行された場合には、検索結果領域42に表示される検索結果として常に上記(a)の結果が採用される。
次に、上記実施形態の第1の変形例について、図5のフローチャートを参照して説明する。なお、図5において、高速検索処理の手順を示す図2のフローチャートと等価な部分には、同一符号を付してある。
次に、上記実施形態の第2の変形例について、図6のフローチャートを参照して説明する。なお、図6において、図2のフローチャートと等価な部分には、同一符号を付してある。
Claims (10)
- Nグラムインデックスによる検索を一次検索と当該一次検索結果に対する二次検索とにより実行する第1の検索手段と、検索条件文を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析結果に基づいて形態素インデックスによる形態素検索を実行する第2の検索手段とを備えた全文検索システムにおいて、
前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数との近似度を判定する近似度判定手段と、
前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数とが近似していると前記近似度判定手段によって判定された場合、前記Nグラムインデックスによる二次検索が省略されるように前記第1の検索手段を制御して、前記一次検索の結果または前記形態素検索の結果を検索結果として採用する全文検索実行制御手段と
を具備することを特徴とする全文検索システム。 - 前記形態素解析手段による形態素解析結果に基づいて前記検索条件文が形態素検索可能な単語に分割できたかを判定する形態素解析結果判定手段を更に具備し、
前記全文検索実行制御手段は、前記検索条件文が形態素検索可能な単語に分割できたと前記形態素解析結果判定手段によって判定された場合に限り、前記形態素インデックスによる形態素検索が実行されるように前記第2の検索手段を制御することを特徴とする請求項1記載の全文検索システム。 - 前記全文検索実行制御手段は、前記形態素解析手段の解析結果によって示される前記検索条件文が分割された単語数と基準の単語数とに基づいて、前記一次検索の結果または前記形態素検索の結果のいずれを検索結果として採用するかを決定することを特徴とする請求項1記載の全文検索システム。
- 前記基準の単語数をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項3記載の全文検索システム。
- 前記Nグラムインデックスによる一次検索のヒット件数を基準のヒット件数と比較することにより前記一次検索のヒット件数が多いか或は少ないかを判定する一次検索結果数判定手段を更に具備し、
前記全文検索実行制御手段は、前記一次検索のヒット件数が少ないと前記一次検索結果数判定手段によって判定された場合に、前記Nグラムインデックスによる二次検索が実行されるように前記第1の検索手段を制御して、前記二次検索の結果を検索結果として採用することを特徴とする請求項1記載の全文検索システム。 - 前記基準のヒット件数をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項5記載の全文検索システム。
- 前記近似度判定手段による判定の基準となる近似度をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項1記載の全文検索システム。
- いかなる場合も前記Nグラムインデックスによる二次検索まで行う標準検索、または前記近似度判定手段による判定結果に基づいて前記Nグラムインデックスによる二次検索が省略される可能性のある高速検索のいずれか一方をユーザにより指定可能とするためのユーザインタフェースを更に具備することを特徴とする請求項1記載の全文検索システム。
- 全文検索実行制御手段は、前記Nグラムインデックスによる一次検索と前記形態素インデックスによる形態素検索とが並列に実行されるように、前記第1の検索手段と前記第2の検索手段とをそれぞれ制御することを特徴とする請求項1記載の全文検索システム。
- Nグラムインデックスによる検索を一次検索と当該一次検索結果に対する二次検索とにより実行する第1の検索手段と、検索条件文を形態素解析する形態素解析手段と、前記形態素解析手段による形態素解析結果に基づいて形態素インデックスによる形態素検索を実行する第2の検索手段とを備えたシステムに適用される全文検索方法において、
前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数との近似度を判定するステップと、
前記Nグラムインデックスによる一次検索のヒット件数と前記形態素インデックスによる形態素検索のヒット件数とが近似していると判定された場合、前記Nグラムインデックスによる二次検索が省略されるように前記第1の検索手段を制御するステップと、
前記Nグラムインデックスによる二次検索が省略された場合、前記一次検索の結果または前記形態素検索の結果を検索結果として採用するステップと
を具備することを特徴とする全文検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004284673A JP4037859B2 (ja) | 2004-09-29 | 2004-09-29 | 全文検索システム及び方法 |
CNB2005101080095A CN100412864C (zh) | 2004-09-29 | 2005-09-29 | 全文检索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004284673A JP4037859B2 (ja) | 2004-09-29 | 2004-09-29 | 全文検索システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006099427A JP2006099427A (ja) | 2006-04-13 |
JP4037859B2 true JP4037859B2 (ja) | 2008-01-23 |
Family
ID=36239173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004284673A Active JP4037859B2 (ja) | 2004-09-29 | 2004-09-29 | 全文検索システム及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4037859B2 (ja) |
CN (1) | CN100412864C (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100424704C (zh) * | 2006-09-30 | 2008-10-08 | 华中科技大学 | 基于密文的全文检索系统 |
JP5224851B2 (ja) | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
CN101350835B (zh) * | 2008-09-19 | 2011-12-28 | 华为终端有限公司 | 用户选择方法和装置 |
JP4796108B2 (ja) * | 2008-09-26 | 2011-10-19 | 株式会社東芝 | 構造化文書検索装置、方法及びプログラム |
JP5178813B2 (ja) * | 2010-12-16 | 2013-04-10 | ヤフー株式会社 | 検索システム及び方法 |
JP7389437B2 (ja) | 2019-10-29 | 2023-11-30 | 国立研究開発法人国立循環器病研究センター | 脳梗塞治療支援システム |
EP4137962A4 (en) | 2021-06-30 | 2024-01-31 | Informex, Inc. | SEARCH DEVICE, SEARCH METHOD AND RECORDING MEDIUM |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10307835A (ja) * | 1997-05-08 | 1998-11-17 | Canon Inc | 情報処理装置及びその方法 |
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
-
2004
- 2004-09-29 JP JP2004284673A patent/JP4037859B2/ja active Active
-
2005
- 2005-09-29 CN CNB2005101080095A patent/CN100412864C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN1755691A (zh) | 2006-04-05 |
CN100412864C (zh) | 2008-08-20 |
JP2006099427A (ja) | 2006-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5740029B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
US8261237B2 (en) | Software tool for detecting plagiarism in computer source code | |
US11573989B2 (en) | Corpus specific generative query completion assistant | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
JPH06266780A (ja) | 意味パターン認識による文字列検索方法及びその装置 | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
JP4037859B2 (ja) | 全文検索システム及び方法 | |
US10102199B2 (en) | Corpus specific natural language query completion assistant | |
KR100691400B1 (ko) | 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기 | |
US9626439B2 (en) | Method for searching in a database | |
KR100795930B1 (ko) | 검색용 색인 기반 질의어 추천 방법 및 그 시스템 | |
KR20130045054A (ko) | 키워드 추출 및 정련 시스템과 그 방법 | |
JPH09204437A (ja) | 文書検索装置 | |
WO2022134824A1 (en) | Tuning query generation patterns | |
US20040054677A1 (en) | Method for processing text in a computer and a computer | |
US8423526B2 (en) | Linguistic assistance systems and methods | |
JP4496797B2 (ja) | 文書管理装置および方法 | |
US20150046437A1 (en) | Search Method | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
KR101099917B1 (ko) | 검색용 색인 기반 질의어 추천 방법 및 그 시스템 | |
WO2016131260A1 (zh) | 一种文字处理方法和装置 | |
JP4373478B2 (ja) | 文書検索装置及び文書検索方法 | |
JP2007265173A (ja) | 情報処理装置、ソフトウェア登録方法およびプログラム | |
US20080177729A1 (en) | Apparatus, method and computer program product for searching document | |
KR20230097518A (ko) | 전자 장치 및 그의 이미지를 추천하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4037859 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131109 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |