JP2011232943A5 - 検索装置、検索方法、ならびに、コンピュータプログラム - Google Patents
検索装置、検索方法、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP2011232943A5 JP2011232943A5 JP2010102368A JP2010102368A JP2011232943A5 JP 2011232943 A5 JP2011232943 A5 JP 2011232943A5 JP 2010102368 A JP2010102368 A JP 2010102368A JP 2010102368 A JP2010102368 A JP 2010102368A JP 2011232943 A5 JP2011232943 A5 JP 2011232943A5
- Authority
- JP
- Japan
- Prior art keywords
- search
- gram
- character string
- grams
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 7
- 239000000470 constituent Substances 0.000 claims 3
- 230000017105 transposition Effects 0.000 claims 3
- 238000000605 extraction Methods 0.000 claims 2
Description
本発明は、複数の文書から、指定された検索文字列を含む文書を絞り込む検索装置、検索方法、ならびに、コンピュータプログラムに関する。
本発明は、以上のような課題を解決するためのものであり、複数の文書から、指定された検索文字列を含む文書を効率的に絞り込むのに好適な検索装置、検索方法、ならびに、コンピュータプログラムを提供することを目的とする。
Claims (15)
- 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段と、
検索文字列からNグラムを抽出するNグラム抽出手段と、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段と、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段と、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする検索装置。 - 前記検索Nグラム選定手段は、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
ことを特徴とする請求項1に記載の検索装置。 - 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
(b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
(c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
ことを特徴とする請求項2に記載の検索装置。 - 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
(b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
(c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
ことを特徴とする請求項2に記載の検索装置。 - 前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
ことを特徴とする請求項1から4のいずれか1項に記載の検索装置。 - 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段を備えるコンピュータを、
検索文字列からNグラムを抽出するNグラム抽出手段、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
として機能させるためのコンピュータプログラム。 - 前記検索Nグラム選定手段は、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
ことを特徴とする請求項6に記載のコンピュータプログラム。 - 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
(b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
(c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
ことを特徴とする請求項7に記載のコンピュータプログラム。 - 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
(b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
(c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
ことを特徴とする請求項7に記載のコンピュータプログラム。 - 前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
ことを特徴とする請求項6から9のいずれか1項に記載のコンピュータプログラム。 - 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段を備えた検索装置における検索方法であって、
検索文字列からNグラムを抽出するNグラム抽出工程と、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出工程と、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定工程と、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定工程と、
を備えることを特徴とする検索方法。 - 前記検索Nグラム選定工程では、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
ことを特徴とする請求項11に記載の検索方法。 - 前記検索Nグラム選定工程では、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
(b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
(c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
ことを特徴とする請求項12に記載の検索方法。 - 前記検索Nグラム選定工程では、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
(b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
(c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
ことを特徴とする請求項12に記載の検索方法。 - 前記文書特定工程では、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
ことを特徴とする請求項11から14のいずれか1項に記載の検索方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102368A JP5083367B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、検索方法、ならびに、コンピュータプログラム |
US13/094,012 US8412697B2 (en) | 2010-04-27 | 2011-04-26 | Searching apparatus and searching method |
CN201110112548.1A CN102236697B (zh) | 2010-04-27 | 2011-04-26 | 检索装置以及检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102368A JP5083367B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、検索方法、ならびに、コンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011232943A JP2011232943A (ja) | 2011-11-17 |
JP2011232943A5 true JP2011232943A5 (ja) | 2012-01-05 |
JP5083367B2 JP5083367B2 (ja) | 2012-11-28 |
Family
ID=44816678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010102368A Active JP5083367B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、検索方法、ならびに、コンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8412697B2 (ja) |
JP (1) | JP5083367B2 (ja) |
CN (1) | CN102236697B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013179348A1 (ja) * | 2012-05-31 | 2013-12-05 | 富士通株式会社 | インデックス生成プログラム及び検索プログラム |
JP5733285B2 (ja) * | 2012-09-20 | 2015-06-10 | カシオ計算機株式会社 | 検索装置、検索方法及びプログラム |
WO2014045320A1 (ja) * | 2012-09-21 | 2014-03-27 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
JP6050165B2 (ja) * | 2013-03-22 | 2016-12-21 | 株式会社日立ソリューションズ | 全文検索装置 |
CN114003685B (zh) * | 2022-01-04 | 2022-06-07 | 广州奥凯信息咨询有限公司 | 分词位置索引构建方法及其装置、文档检索方法及其装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
JP2002539528A (ja) * | 1999-03-05 | 2002-11-19 | キヤノン株式会社 | データベース注釈付け及び検索 |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
JP4314204B2 (ja) * | 2005-03-11 | 2009-08-12 | 株式会社東芝 | 文書管理方法、システム及びプログラム |
JP4490930B2 (ja) * | 2006-02-07 | 2010-06-30 | 株式会社東芝 | 構造化文書検索装置および構造化文書検索方法 |
JP4851353B2 (ja) * | 2007-01-31 | 2012-01-11 | 株式会社リコー | 画像処理装置及び画像処理方法 |
JP4398988B2 (ja) * | 2007-03-26 | 2010-01-13 | 株式会社東芝 | 構造化文書を管理する装置、方法およびプログラム |
US7877258B1 (en) * | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
CN102084363B (zh) * | 2008-07-03 | 2014-11-12 | 加利福尼亚大学董事会 | 一种用于在结构化数据上高效地支持交互式模糊搜索的方法 |
CN102365639B (zh) * | 2009-04-06 | 2014-11-26 | 三菱电机株式会社 | 检索装置 |
-
2010
- 2010-04-27 JP JP2010102368A patent/JP5083367B2/ja active Active
-
2011
- 2011-04-26 US US13/094,012 patent/US8412697B2/en active Active
- 2011-04-26 CN CN201110112548.1A patent/CN102236697B/zh active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008250666A5 (ja) | ||
RU2016103814A (ru) | Исполняемый на компьютере способ и система для поиска в инвертированном индексе, обладающем множеством списков словопозиций | |
JP2011232943A5 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
JP2008547154A5 (ja) | ||
DK1952285T3 (da) | Anlæg og fremgangsmåde til gennemsøgning og sammenligning af data, som har ordbilled-agtigt indhold | |
CN110019647A (zh) | 一种关键词搜索方法、装置和搜索引擎 | |
JP2010538375A5 (ja) | ||
JP2008287533A5 (ja) | ||
JP2017507444A5 (ja) | ||
JP2009080525A5 (ja) | ||
CN107169011A (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
CN103150409A (zh) | 一种用户检索词推荐的方法及系统 | |
JP5980520B2 (ja) | 効率的にクエリを処理する方法及び装置 | |
JP5083367B2 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
JP2007316743A5 (ja) | ||
JP2014215803A5 (ja) | ||
JP2008027009A5 (ja) | ||
JP2011257877A (ja) | 情報検索装置、情報検索方法、及びプログラム | |
JP6753190B2 (ja) | 文書検索装置及びプログラム | |
JP2005228033A5 (ja) | ||
JP2014123936A5 (ja) | ||
CN104376125B (zh) | 一种业务表单动态增减内容的方法 | |
CN107168997A (zh) | 基于人工智能的网页原创评估方法、装置及存储介质 | |
JP2012059126A5 (ja) | ||
JP2005353024A5 (ja) |