JP2011232943A5 - 検索装置、検索方法、ならびに、コンピュータプログラム - Google Patents

検索装置、検索方法、ならびに、コンピュータプログラム Download PDF

Info

Publication number
JP2011232943A5
JP2011232943A5 JP2010102368A JP2010102368A JP2011232943A5 JP 2011232943 A5 JP2011232943 A5 JP 2011232943A5 JP 2010102368 A JP2010102368 A JP 2010102368A JP 2010102368 A JP2010102368 A JP 2010102368A JP 2011232943 A5 JP2011232943 A5 JP 2011232943A5
Authority
JP
Japan
Prior art keywords
search
gram
character string
grams
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010102368A
Other languages
English (en)
Other versions
JP5083367B2 (ja
JP2011232943A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2010102368A priority Critical patent/JP5083367B2/ja
Priority claimed from JP2010102368A external-priority patent/JP5083367B2/ja
Priority to US13/094,012 priority patent/US8412697B2/en
Priority to CN201110112548.1A priority patent/CN102236697B/zh
Publication of JP2011232943A publication Critical patent/JP2011232943A/ja
Publication of JP2011232943A5 publication Critical patent/JP2011232943A5/ja
Application granted granted Critical
Publication of JP5083367B2 publication Critical patent/JP5083367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、複数の文書から、指定された検索文字列を含む文書を絞り込む検索装置、検索方法、ならびに、コンピュータプログラムに関する。
本発明は、以上のような課題を解決するためのものであり、複数の文書から、指定された検索文字列を含む文書を効率的に絞り込むのに好適な検索装置、検索方法、ならびに、コンピュータプログラムを提供することを目的とする。

Claims (15)

  1. 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段と、
    検索文字列からNグラムを抽出するNグラム抽出手段と、
    前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段と、
    前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段と、
    前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
    を備えることを特徴とする検索装置。
  2. 前記検索Nグラム選定手段は、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
    ことを特徴とする請求項1に記載の検索装置。
  3. 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
    (a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
    (b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
    (c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
    ことを特徴とする請求項2に記載の検索装置。
  4. 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
    (a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
    (b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
    (c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
    ことを特徴とする請求項2に記載の検索装置。
  5. 前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
    ことを特徴とする請求項1から4のいずれか1項に記載の検索装置。
  6. 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段を備えるコンピュータを、
    検索文字列からNグラムを抽出するNグラム抽出手段、
    前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段、
    前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段、
    前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
    として機能させるためのコンピュータプログラム。
  7. 前記検索Nグラム選定手段は、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
    ことを特徴とする請求項6に記載のコンピュータプログラム。
  8. 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
    (a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
    (b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
    (c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
    ことを特徴とする請求項7に記載のコンピュータプログラム。
  9. 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
    (a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
    (b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
    (c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
    ことを特徴とする請求項7に記載のコンピュータプログラム。
  10. 前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
    ことを特徴とする請求項6から9のいずれか1項に記載のコンピュータプログラム。
  11. 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段を備えた検索装置における検索方法であって、
    検索文字列からNグラムを抽出するNグラム抽出工程と、
    前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出工程と、
    前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定工程と、
    前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定工程と、
    を備えることを特徴とする検索方法。
  12. 前記検索Nグラム選定工程では、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
    ことを特徴とする請求項11に記載の検索方法。
  13. 前記検索Nグラム選定工程では、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
    (a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
    (b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
    (c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
    ことを特徴とする請求項12に記載の検索方法。
  14. 前記検索Nグラム選定工程では、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
    (a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
    (b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
    (c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
    ことを特徴とする請求項12に記載の検索方法。
  15. 前記文書特定工程では、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
    ことを特徴とする請求項11から14のいずれか1項に記載の検索方法。
JP2010102368A 2010-04-27 2010-04-27 検索装置、検索方法、ならびに、コンピュータプログラム Active JP5083367B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010102368A JP5083367B2 (ja) 2010-04-27 2010-04-27 検索装置、検索方法、ならびに、コンピュータプログラム
US13/094,012 US8412697B2 (en) 2010-04-27 2011-04-26 Searching apparatus and searching method
CN201110112548.1A CN102236697B (zh) 2010-04-27 2011-04-26 检索装置以及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010102368A JP5083367B2 (ja) 2010-04-27 2010-04-27 検索装置、検索方法、ならびに、コンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2011232943A JP2011232943A (ja) 2011-11-17
JP2011232943A5 true JP2011232943A5 (ja) 2012-01-05
JP5083367B2 JP5083367B2 (ja) 2012-11-28

Family

ID=44816678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010102368A Active JP5083367B2 (ja) 2010-04-27 2010-04-27 検索装置、検索方法、ならびに、コンピュータプログラム

Country Status (3)

Country Link
US (1) US8412697B2 (ja)
JP (1) JP5083367B2 (ja)
CN (1) CN102236697B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013179348A1 (ja) * 2012-05-31 2013-12-05 富士通株式会社 インデックス生成プログラム及び検索プログラム
JP5733285B2 (ja) * 2012-09-20 2015-06-10 カシオ計算機株式会社 検索装置、検索方法及びプログラム
WO2014045320A1 (ja) * 2012-09-21 2014-03-27 富士通株式会社 制御プログラム、制御方法および制御装置
JP6050165B2 (ja) * 2013-03-22 2016-12-21 株式会社日立ソリューションズ 全文検索装置
CN114003685B (zh) * 2022-01-04 2022-06-07 广州奥凯信息咨询有限公司 分词位置索引构建方法及其装置、文档检索方法及其装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7031910B2 (en) * 2001-10-16 2006-04-18 Xerox Corporation Method and system for encoding and accessing linguistic frequency data
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
JP4314204B2 (ja) * 2005-03-11 2009-08-12 株式会社東芝 文書管理方法、システム及びプログラム
JP4490930B2 (ja) * 2006-02-07 2010-06-30 株式会社東芝 構造化文書検索装置および構造化文書検索方法
JP4851353B2 (ja) * 2007-01-31 2012-01-11 株式会社リコー 画像処理装置及び画像処理方法
JP4398988B2 (ja) * 2007-03-26 2010-01-13 株式会社東芝 構造化文書を管理する装置、方法およびプログラム
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
CN102084363B (zh) * 2008-07-03 2014-11-12 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN102365639B (zh) * 2009-04-06 2014-11-26 三菱电机株式会社 检索装置

Similar Documents

Publication Publication Date Title
JP2008250666A5 (ja)
RU2016103814A (ru) Исполняемый на компьютере способ и система для поиска в инвертированном индексе, обладающем множеством списков словопозиций
JP2011232943A5 (ja) 検索装置、検索方法、ならびに、コンピュータプログラム
JP2008547154A5 (ja)
DK1952285T3 (da) Anlæg og fremgangsmåde til gennemsøgning og sammenligning af data, som har ordbilled-agtigt indhold
CN110019647A (zh) 一种关键词搜索方法、装置和搜索引擎
JP2010538375A5 (ja)
JP2008287533A5 (ja)
JP2017507444A5 (ja)
JP2009080525A5 (ja)
CN107169011A (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN103150409A (zh) 一种用户检索词推荐的方法及系统
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
JP5083367B2 (ja) 検索装置、検索方法、ならびに、コンピュータプログラム
JP2007316743A5 (ja)
JP2014215803A5 (ja)
JP2008027009A5 (ja)
JP2011257877A (ja) 情報検索装置、情報検索方法、及びプログラム
JP6753190B2 (ja) 文書検索装置及びプログラム
JP2005228033A5 (ja)
JP2014123936A5 (ja)
CN104376125B (zh) 一种业务表单动态增减内容的方法
CN107168997A (zh) 基于人工智能的网页原创评估方法、装置及存储介质
JP2012059126A5 (ja)
JP2005353024A5 (ja)