JP2011232943A - 検索装置、ならびに、コンピュータプログラム - Google Patents
検索装置、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP2011232943A JP2011232943A JP2010102368A JP2010102368A JP2011232943A JP 2011232943 A JP2011232943 A JP 2011232943A JP 2010102368 A JP2010102368 A JP 2010102368A JP 2010102368 A JP2010102368 A JP 2010102368A JP 2011232943 A JP2011232943 A JP 2011232943A
- Authority
- JP
- Japan
- Prior art keywords
- search
- gram
- character string
- grams
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】検索対象の複数の文書データから抽出されたNグラムについて、出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶部11を備えた検索装置10において、Nグラム抽出部13は、検索文字列からNグラムを抽出し、最少頻度導出部14は、検索文字列から抽出されたNグラムのうち、複数の文書データに関して最少出現頻度を有するNグラムを導出し、検索Nグラム選定部15は、検索文字列を被覆し、かつ、導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、検索文字列から抽出されたNグラムのうちから選定し、文書特定部16は、選定された複数の検索Nグラムについて、複数の文書データのうちから検索文字列を含む文書データを特定する。
【選択図】図1
Description
検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段と、
検索文字列からNグラムを抽出するNグラム抽出手段と、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段と、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段と、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする。
前記検索Nグラム選定手段は、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
ことが望ましい。
前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
(b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
(c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
ことが望ましい。
前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
(b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
(c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
ことが望ましい。
前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
ことが望ましい。
検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段を備えるコンピュータを、
検索文字列からNグラムを抽出するNグラム抽出手段、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
として機能させる。
以下、図1を参照して実施形態1に係る検索装置10について説明する。
(a)検索用バイグラム「文検」は、最少出現頻度のバイグラム「索処」よりも2文字前方に位置しているはずなので、その5回の出現位置の中に、「98文字目(=100−2文字目)」の出現位置を有するか。
(b)検索用バイグラム「化全」は、最少出現頻度のバイグラム「索処」よりも4文字前方に位置しているはずなので、その8回の出現位置の中に、「96文字目(=100−4文字目)」の出現位置を有するか。
(c)検索用バイグラム「高速」は、最少出現頻度のバイグラム「索処」よりも6文字前方に位置しているはずなので、その10回の出現位置の中に、「94文字目(=100−6文字目)」の出現位置を有するか。
(d)検索用バイグラム「処理」は、最少出現頻度のバイグラム「索処」よりも1文字後方に位置しているはずなので、その13回の出現位置の中に、「101文字目(=100+1文字目)」の出現位置を有するか。
次に、本発明の実施形態2について説明する。実施形態1では、検索Nグラムの選定において、最初に検索文字列の先頭の文字から順に重複しないように選定した。実施形態2では、最少出現頻度のNグラムの検索文字列の中での位置を基準に、検索Nグラムを選定していく。以下、詳述する。
Claims (6)
- 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段と、
検索文字列からNグラムを抽出するNグラム抽出手段と、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段と、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段と、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする検索装置。 - 前記検索Nグラム選定手段は、前記検索文字列を被覆する最小限度の数または最小限度の数に1を加えた数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する、
ことを特徴とする請求項1に記載の検索装置。 - 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭の文字から順に、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを選定し、
(b)次に、前記選定されたNグラムで前記検索文字列を被覆できない場合には、前記検索文字列の末尾の文字を含むNグラムを追加して選定し、
(c)最後に、選定されたNグラム中に前記最少出現頻度を有するNグラムが含まれていない場合には、前記最少出現頻度を有するNグラムを追加して選定する、
ことを特徴とする請求項2に記載の検索装置。 - 前記検索Nグラム選定手段は、前記複数の検索Nグラムとして、前記検索文字列から抽出されたNグラムのうち、
(a)まず、前記検索文字列の先頭および/又は末尾の文字を含むNグラムを選定し、
(b)次に、前記最少出現頻度を有するNグラムを追加して選定し、
(c)最後に、前記検索文字列における、前記最少出現頻度を有するNグラムを構成する文字列の位置を基準に、前方および/又は後方へ、N文字単位で重複しないように分割し、分割されたそれぞれのN文字列で構成されるNグラムを追加して選定する、
ことを特徴とする請求項2に記載の検索装置。 - 前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、前記選定された複数の検索Nグラムのうち、出現頻度の少ない検索Nグラムから順に、文書データの特定に用いる、
ことを特徴とする請求項1から4のいずれか1項に記載の検索装置。 - 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記複数の文書データ中の出現位置と出現頻度とを構成要素とする転置インデックスを記憶する記憶手段を備えるコンピュータを、
検索文字列からNグラムを抽出するNグラム抽出手段、
前記転置インデックスの出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、前記複数の文書データに関して最少出現頻度を有するNグラムを導出する最少頻度導出手段、
前記検索文字列を被覆し、かつ、前記導出された最少出現頻度を有するNグラムを含む複数の検索Nグラムを、前記検索文字列から抽出されたNグラムのうちから選定する検索Nグラム選定手段、
前記選定された複数の検索Nグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
として機能させるためのコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102368A JP5083367B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、検索方法、ならびに、コンピュータプログラム |
CN201110112548.1A CN102236697B (zh) | 2010-04-27 | 2011-04-26 | 检索装置以及检索方法 |
US13/094,012 US8412697B2 (en) | 2010-04-27 | 2011-04-26 | Searching apparatus and searching method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102368A JP5083367B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、検索方法、ならびに、コンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011232943A true JP2011232943A (ja) | 2011-11-17 |
JP2011232943A5 JP2011232943A5 (ja) | 2012-01-05 |
JP5083367B2 JP5083367B2 (ja) | 2012-11-28 |
Family
ID=44816678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010102368A Active JP5083367B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、検索方法、ならびに、コンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8412697B2 (ja) |
JP (1) | JP5083367B2 (ja) |
CN (1) | CN102236697B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186482A (ja) * | 2013-03-22 | 2014-10-02 | Hitachi Solutions Ltd | 全文検索装置 |
JPWO2014045320A1 (ja) * | 2012-09-21 | 2016-08-18 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2857986A4 (en) * | 2012-05-31 | 2015-10-14 | Fujitsu Ltd | INDEX GENERATION PROGRAM AND RESEARCH PROGRAM |
JP5733285B2 (ja) * | 2012-09-20 | 2015-06-10 | カシオ計算機株式会社 | 検索装置、検索方法及びプログラム |
CN114003685B (zh) * | 2022-01-04 | 2022-06-07 | 广州奥凯信息咨询有限公司 | 分词位置索引构建方法及其装置、文档检索方法及其装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213158A (ja) * | 2006-02-07 | 2007-08-23 | Toshiba Corp | 構造化文書検索装置および構造化文書検索方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
EP0834139A4 (en) * | 1995-06-07 | 1998-08-05 | Int Language Engineering Corp | COMPUTER-ASSISTED TRANSLATION TOOLS |
US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
AU777693B2 (en) * | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
JP4314204B2 (ja) * | 2005-03-11 | 2009-08-12 | 株式会社東芝 | 文書管理方法、システム及びプログラム |
JP4851353B2 (ja) * | 2007-01-31 | 2012-01-11 | 株式会社リコー | 画像処理装置及び画像処理方法 |
JP4398988B2 (ja) * | 2007-03-26 | 2010-01-13 | 株式会社東芝 | 構造化文書を管理する装置、方法およびプログラム |
US7877258B1 (en) * | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
US8073869B2 (en) * | 2008-07-03 | 2011-12-06 | The Regents Of The University Of California | Method for efficiently supporting interactive, fuzzy search on structured data |
JP5300974B2 (ja) * | 2009-04-06 | 2013-09-25 | 三菱電機株式会社 | 検索装置 |
-
2010
- 2010-04-27 JP JP2010102368A patent/JP5083367B2/ja active Active
-
2011
- 2011-04-26 US US13/094,012 patent/US8412697B2/en active Active
- 2011-04-26 CN CN201110112548.1A patent/CN102236697B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213158A (ja) * | 2006-02-07 | 2007-08-23 | Toshiba Corp | 構造化文書検索装置および構造化文書検索方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014045320A1 (ja) * | 2012-09-21 | 2016-08-18 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
US10318483B2 (en) | 2012-09-21 | 2019-06-11 | Fujitsu Limited | Control method and control device |
JP2014186482A (ja) * | 2013-03-22 | 2014-10-02 | Hitachi Solutions Ltd | 全文検索装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5083367B2 (ja) | 2012-11-28 |
US20110264675A1 (en) | 2011-10-27 |
US8412697B2 (en) | 2013-04-02 |
CN102236697A (zh) | 2011-11-09 |
CN102236697B (zh) | 2014-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
US20180267953A1 (en) | Context-based text auto completion | |
JP5141560B2 (ja) | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 | |
JP5083367B2 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
US20110316796A1 (en) | Information Search Apparatus and Information Search Method | |
US20120330955A1 (en) | Document similarity calculation device | |
CN104462030B (zh) | 字符转换装置、字符转换方法 | |
JP4724051B2 (ja) | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 | |
JP5980520B2 (ja) | 効率的にクエリを処理する方法及び装置 | |
JP5664467B2 (ja) | 検索プログラム、検索方法、検索装置、およびノード | |
CN104021201B (zh) | 一种数据转换方法及装置 | |
WO2012015021A1 (en) | Stroke and structure input method and system | |
JP5601116B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5601123B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP2010146061A (ja) | 例文表示装置、例文表示方法および例文表示プログラム | |
JP5526985B2 (ja) | 検索プログラム、検索装置、および検索方法 | |
JP5533197B2 (ja) | 検索装置、ならびに、コンピュータプログラム | |
JP5601121B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5708117B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP6884565B2 (ja) | 文章検索装置、文章検索方法及び文章検索プログラム | |
JP5457302B2 (ja) | 形態素結合装置、形態素結合方法及び自然言語処理システム | |
JP5526987B2 (ja) | 管理プログラム、管理装置、および管理方法 | |
JP5526986B2 (ja) | 管理プログラム、管理装置、および管理方法 | |
CN102169485B (zh) | 用于搜索多个串的方法和系统 | |
JP2012069070A (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5083367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |