JP2012064159A - Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム - Google Patents
Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP2012064159A JP2012064159A JP2010210007A JP2010210007A JP2012064159A JP 2012064159 A JP2012064159 A JP 2012064159A JP 2010210007 A JP2010210007 A JP 2010210007A JP 2010210007 A JP2010210007 A JP 2010210007A JP 2012064159 A JP2012064159 A JP 2012064159A
- Authority
- JP
- Japan
- Prior art keywords
- gram
- grams
- search
- classified
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書抽出ステップと、分類ステップと、生成ステップと、を備えた転置インデックスの生成方法であって、文書抽出ステップでは、文書データ18から、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて抽出し、分類ステップでは、先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、抽出されたNグラムを分類し、生成ステップでは、Nグラム群のそれぞれについて、Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する。
【選択図】図1
Description
文書データから、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて、抽出する文書抽出ステップと、
先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、前記抽出されたNグラムを分類する分類ステップと、
前記Nグラム群のそれぞれについて、前記Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する生成ステップと、
を備えることを特徴とする。
前記分類ステップでは、前記抽出されたNグラムを分類しようとしているNグラム群に分類されたNグラムに対応付けられた出現位置の個数と、前記抽出されたNグラムに対応付けられた出現位置の個数と、の和が所定の第1の個数を超える場合、当該Nグラム群とは異なるNグラム群に前記抽出されたNグラムを分類する、
ことが望ましい。
前記分類ステップでは、前記抽出されたNグラムを分類しようとしているNグラム群に分類されたNグラムの個数が所定の第2の個数である場合、当該Nグラム群とは異なるNグラム群に、前記抽出されたNグラムを分類する、
ことが望ましい。
前記分類ステップでは、前記Nグラム群が所定の条件を満たすと、当該Nグラム群を複数のNグラム群に分割する、
ことが望ましい。
文書データから、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて、抽出する文書抽出手段と、
先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、前記抽出されたNグラムを分類する分類手段と、
前記Nグラム群のそれぞれについて、前記Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する生成手段と、
を備えることを特徴とする。
検索文字列からNグラムを抽出する検索抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記抽出されたNグラムが分類されたNグラム群に対応付けられた出現位置を取得する位置取得ステップと、
前記取得された出現位置に基づいて、前記文書データ中の前記検索文字列の位置を特定する文書特定ステップと、
を備えることを特徴とする。
検索文字列からNグラムを抽出する検索抽出手段と、
上記の生成方法によって生成された転置インデックスから、前記抽出されたNグラムが分類されたNグラム群に対応付けられた出現位置を取得する位置取得手段と、
前記取得された出現位置に基づいて、前記文書データ中の前記検索文字列の位置を特定する文書特定手段と、
を備えることを特徴とする。
コンピュータを、
文書データから、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて、抽出する文書抽出手段、
先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、前記抽出されたNグラムを分類する分類手段、
前記Nグラム群のそれぞれについて、前記Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する生成手段、
として機能させる。
コンピュータを、
検索文字列からNグラムを抽出する検索抽出手段、
上記の生成方法によって生成された転置インデックスから、前記抽出されたNグラムが分類されたNグラム群に対応付けられた出現位置を取得する位置取得手段、
前記取得された出現位置に基づいて、前記文書データ中の前記検索文字列の位置を特定する文書特定手段、
として機能させる。
本実施形態では、コンピュータ装置を、図1に示されるような転置インデックスの生成装置として構成する。また、図1に示される生成装置10によって、本実施形態に係る転置インデックスの生成方法が実現される。
ROM12は、生成装置10全体の動作制御に必要なコンピュータプログラムや各種データを記憶する。
RAM13は、データやコンピュータプログラムを一時的に記憶するためのもので、ROM12から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータが保持される。
HDD14は、転置インデックスの生成処理の動作のために必要なデータ等を記憶する。
入力装置15は、例えばキーボードやタッチパネル等によって構成され、ユーザからの各種入力を受け付ける。
出力装置16は、例えばディスプレイ等によって構成され、生成装置10の種々の処理結果を出力する。
通信制御装置17は、生成装置10をインターネット等のコンピュータ通信網に接続するためのものであり、コンピュータ通信網に接続してデータをやり取りする場合に必要となる。
ROM22は、検索装置20全体の動作制御に必要なコンピュータプログラムや各種データを記憶する。
RAM23は、データやコンピュータプログラムを一時的に記憶するためのもので、ROM22から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータが保持される。
HDD24は、検索処理の動作のために必要なデータ等を記憶する。
入力装置25は、例えばキーボードやタッチパネル等によって構成され、ユーザからの各種入力を受け付ける。
出力装置26は、例えばディスプレイ等によって構成され、検索装置20の種々の処理結果を出力する。
通信制御装置27は、検索装置20をインターネット等のコンピュータ通信網に接続するためのものであり、コンピュータ通信網に接続してデータをやり取りする場合に必要となる。
次に、本発明の実施形態2について説明する。実施形態1では、生成装置10は、Nグラムの出現位置の個数と、そのNグラムを分類しようとしているNグラム群にすでに分類されているNグラムの出現位置の個数と、の和が所定の個数を超えている場合に、そのNグラムを分類するための新たなNグラム群を別に作成した。
次に、本発明の実施形態3について説明する。実施形態1および実施形態2では、生成装置10は、NグラムをNグラム群に分類しようとしている際に、そのNグラム群に分類可能かを判断して、分類できなければ、そのNグラムを分類するための新たなNグラム群を作成した。
Claims (9)
- 文書データから、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて、抽出する文書抽出ステップと、
先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、前記抽出されたNグラムを分類する分類ステップと、
前記Nグラム群のそれぞれについて、前記Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する生成ステップと、
を備えることを特徴とする転置インデックスの生成方法。 - 前記分類ステップでは、前記抽出されたNグラムを分類しようとしているNグラム群に分類されたNグラムに対応付けられた出現位置の個数と、前記抽出されたNグラムに対応付けられた出現位置の個数と、の和が所定の第1の個数を超える場合、当該Nグラム群とは異なるNグラム群に前記抽出されたNグラムを分類する、
ことを特徴とする請求項1に記載の転置インデックスの生成方法。 - 前記分類ステップでは、前記抽出されたNグラムを分類しようとしているNグラム群に分類されたNグラムの個数が所定の第2の個数である場合、当該Nグラム群とは異なるNグラム群に、前記抽出されたNグラムを分類する、
ことを特徴とする請求項1または2に記載の転置インデックスの生成方法。 - 前記分類ステップでは、前記Nグラム群が所定の条件を満たすと、当該Nグラム群を複数のNグラム群に分割する、
ことを特徴とする請求項1に記載の転置インデックスの生成方法。 - 文書データから、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて、抽出する文書抽出手段と、
先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、前記抽出されたNグラムを分類する分類手段と、
前記Nグラム群のそれぞれについて、前記Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する生成手段と、
を備えることを特徴とする転置インデックスの生成装置。 - 検索文字列からNグラムを抽出する検索抽出ステップと、
請求項1から4に記載の生成方法によって生成された転置インデックスから、前記抽出されたNグラムが分類されたNグラム群に対応付けられた出現位置を取得する位置取得ステップと、
前記取得された出現位置に基づいて、前記文書データ中の前記検索文字列の位置を特定する文書特定ステップと、
を備えることを特徴とする検索方法。 - 検索文字列からNグラムを抽出する検索抽出手段と、
請求項1から4に記載の生成方法によって生成された転置インデックスから、前記抽出されたNグラムが分類されたNグラム群に対応付けられた出現位置を取得する位置取得手段と、
前記取得された出現位置に基づいて、前記文書データ中の前記検索文字列の位置を特定する文書特定手段と、
を備えることを特徴とする検索装置。 - コンピュータを、
文書データから、「N文字の文字列であるNグラム(Nは自然数)」を、当該文書データ中での出現位置と対応付けて、抽出する文書抽出手段、
先頭のM文字(MはNより小さい自然数)が共通なNグラムを要素とするNグラム群のいずれかに、前記抽出されたNグラムを分類する分類手段、
前記Nグラム群のそれぞれについて、前記Nグラム群に分類されたNグラムに対応付けられた出現位置を対応付けて、転置インデックスを生成する生成手段、
として機能させるためのコンピュータプログラム。 - コンピュータを、
検索文字列からNグラムを抽出する検索抽出手段、
請求項1から4に記載の生成方法によって生成された転置インデックスから、前記抽出されたNグラムが分類されたNグラム群に対応付けられた出現位置を取得する位置取得手段、
前記取得された出現位置に基づいて、前記文書データ中の前記検索文字列の位置を特定する文書特定手段、
として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010210007A JP5601116B2 (ja) | 2010-09-17 | 2010-09-17 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010210007A JP5601116B2 (ja) | 2010-09-17 | 2010-09-17 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012064159A true JP2012064159A (ja) | 2012-03-29 |
JP5601116B2 JP5601116B2 (ja) | 2014-10-08 |
Family
ID=46059765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010210007A Active JP5601116B2 (ja) | 2010-09-17 | 2010-09-17 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5601116B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203579A (ja) * | 2011-03-24 | 2012-10-22 | Casio Comput Co Ltd | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
JP2019083477A (ja) * | 2017-10-31 | 2019-05-30 | 富士通株式会社 | データ生成プログラム、データ生成方法および情報処理装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067400A (ja) * | 2001-08-27 | 2003-03-07 | Mitsubishi Electric Corp | 文書検索装置、文書検索方法および文書検索プログラム |
JP2003122794A (ja) * | 2001-07-24 | 2003-04-25 | Ricoh Co Ltd | 全文検索装置、全文検索方法、プログラム、及び記録媒体 |
JP2004192546A (ja) * | 2002-12-13 | 2004-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、プログラム、および記録媒体 |
JP2005004560A (ja) * | 2003-06-13 | 2005-01-06 | Fujitsu Ltd | インバーテッドファイル作成方法 |
JP2008209996A (ja) * | 2007-02-23 | 2008-09-11 | Mitsubishi Electric Corp | 検索索引作成装置・検索索引作成方法及び検索索引作成プログラム |
-
2010
- 2010-09-17 JP JP2010210007A patent/JP5601116B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122794A (ja) * | 2001-07-24 | 2003-04-25 | Ricoh Co Ltd | 全文検索装置、全文検索方法、プログラム、及び記録媒体 |
JP2003067400A (ja) * | 2001-08-27 | 2003-03-07 | Mitsubishi Electric Corp | 文書検索装置、文書検索方法および文書検索プログラム |
JP2004192546A (ja) * | 2002-12-13 | 2004-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、プログラム、および記録媒体 |
JP2005004560A (ja) * | 2003-06-13 | 2005-01-06 | Fujitsu Ltd | インバーテッドファイル作成方法 |
JP2008209996A (ja) * | 2007-02-23 | 2008-09-11 | Mitsubishi Electric Corp | 検索索引作成装置・検索索引作成方法及び検索索引作成プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203579A (ja) * | 2011-03-24 | 2012-10-22 | Casio Comput Co Ltd | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
JP2019083477A (ja) * | 2017-10-31 | 2019-05-30 | 富士通株式会社 | データ生成プログラム、データ生成方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5601116B2 (ja) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101479040B1 (ko) | 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체 | |
KR101196935B1 (ko) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 | |
US8321485B2 (en) | Device and method for constructing inverted indexes | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
JP5550669B2 (ja) | 検索装置、検索方法およびプログラム | |
CN101833547A (zh) | 基于个人语料库进行短语级预测输入的方法 | |
CN108874956A (zh) | 海量文件检索方法、装置、计算机设备及存储介质 | |
JP2005250980A (ja) | 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム | |
JP5083367B2 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
JP5699743B2 (ja) | 検索方法、検索装置、ならびに、コンピュータプログラム | |
JP5601116B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
US11487817B2 (en) | Index generation method, data retrieval method, apparatus of index generation | |
JP2010198425A (ja) | 文書管理方法、装置 | |
JP5601123B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP2009104669A (ja) | 文書検索方法、システム及びプログラム | |
JP5374881B2 (ja) | 情報検索システム、情報検索方法およびプログラム | |
CN108920687B (zh) | 一种基于Lucene索引段的合并优化方法 | |
JP5601121B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5633411B2 (ja) | ファイル分類装置 | |
JP4746433B2 (ja) | 文書検索方法、文書検索プログラムおよび文書検索装置 | |
JP5533197B2 (ja) | 検索装置、ならびに、コンピュータプログラム | |
JP5898117B2 (ja) | 映像要約装置、映像要約方法及び映像要約プログラム | |
JP5708117B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP2012069070A (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140702 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140722 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5601116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |