JP2012069071A - Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム - Google Patents
Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP2012069071A JP2012069071A JP2010215611A JP2010215611A JP2012069071A JP 2012069071 A JP2012069071 A JP 2012069071A JP 2010215611 A JP2010215611 A JP 2010215611A JP 2010215611 A JP2010215611 A JP 2010215611A JP 2012069071 A JP2012069071 A JP 2012069071A
- Authority
- JP
- Japan
- Prior art keywords
- document data
- gram
- order
- character string
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】転置インデックスの生成方法であって、順序入換ステップでは、見出し語と対応する説明文とからそれぞれ構成される複数の文書データ18のそれぞれについて文字数を計数し、文字数が少ない順に複数の文書データ18の順序を入れ換え、生成ステップでは、「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、順序が入れ換えられた複数の文書データ18中の出現位置を対応付けて、転置インデックスを生成する。
【選択図】図1
Description
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換ステップと、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成ステップと、
を備えることを特徴とする。
前記順序が入れ換えられた複数の文書データのそれぞれの見出し語と説明文との文字列を包含する文書データを抽出し、当該抽出された文書データと、当該抽出された文書データに文字列が包含される文書データと、の包含関係を対応付ける対応付けステップをさらに備え、
前記生成ステップでは、当該包含関係をさらに記憶させて、前記転置インデックスを生成する、
ことが望ましい。
前記生成ステップでは、前記順序が入れ換えられた複数の文書データと、前記順序が入れ換えられる前の複数の文書データと、の対応関係をさらに記憶させて、前記転置インデックスを生成する、
ことが望ましい。
検索文字列からNグラムを抽出するNグラム抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定ステップと、
を備えることを特徴とする。
検索文字列からNグラムを抽出するNグラム抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
を備えることを特徴とする。
検索文字列からNグラムを抽出するNグラム抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置と、前記順序が入れ換えられた複数の文書データと前記順序が入れ換えられる前の複数の文書データとの対応関係と、に基づいて、前記順序が入れ換えられる前の複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
を備えることを特徴とする。
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段と、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段と、
を備えることを特徴とする。
検索文字列からNグラムを抽出するNグラム抽出手段と、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする。
コンピュータを、
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段、
として機能させる。
コンピュータを、
検索文字列からNグラムを抽出するNグラム抽出手段、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
として機能させる。
ROM12は、生成装置10全体の動作制御に必要なコンピュータプログラムや各種データを記憶する。CPU11は、ROM12に記憶されたコンピュータプログラムによって動作し、各種制御を実行する。
RAM13は、データやコンピュータプログラムを一時的に記憶するためのもので、ROM12から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータが保持される。
HDD14は、転置インデックスの生成処理の動作のために必要なデータ等を記憶する。このHDD14には、複数の文書データ18が記憶される。生成装置10は、この複数の文書データ18をもとにして、転置インデックスを生成する。
入力装置15は、例えばキーボードやタッチパネル等によって構成され、ユーザからの各種入力を受け付ける。
出力装置16は、例えばディスプレイ等によって構成され、生成装置10の種々の処理結果を出力する。
通信制御装置17は、生成装置10をインターネット等のコンピュータ通信網に接続するためのものであり、コンピュータ通信網に接続してデータをやり取りする場合に必要となる。
ROM22は、検索装置20全体の動作制御に必要なコンピュータプログラムや各種データを記憶する。CPU11は、ROM12に記憶されたコンピュータプログラムによって動作し、各種制御を実行する。
RAM23は、データやコンピュータプログラムを一時的に記憶するためのもので、ROM22から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータが保持される。
HDD24は、検索処理の動作のために必要なデータ等を記憶する。このHDD24には、生成装置10によって生成された転置インデックス30と、その際に複数の文書データ18から順序が入れ換えられた複数の入換文書データ19と、が記憶される。検索装置20は、この転置インデックス30をもとに、ユーザによって指定された検索文字列が複数の入換文書データ19の中のどの入換文書データ19中に出現するかを特定する。
入力装置25は、例えばキーボードやタッチパネル等によって構成され、ユーザからの各種入力を受け付ける。
出力装置26は、例えばディスプレイ等によって構成され、検索装置20の種々の処理結果を出力する。
通信制御装置27は、検索装置20をインターネット等のコンピュータ通信網に接続するためのものであり、コンピュータ通信網に接続してデータをやり取りする場合に必要となる。
Claims (10)
- 見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換ステップと、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成ステップと、
を備えることを特徴とする転置インデックスの生成方法。 - 前記順序が入れ換えられた複数の文書データのそれぞれの見出し語と説明文との文字列を包含する文書データを抽出し、当該抽出された文書データと、当該抽出された文書データに文字列が包含される文書データと、の包含関係を対応付ける対応付けステップをさらに備え、
前記生成ステップでは、当該包含関係をさらに記憶させて、前記転置インデックスを生成する、
ことを特徴とする請求項1に記載の転置インデックスの生成方法。 - 前記生成ステップでは、前記順序が入れ換えられた複数の文書データと、前記順序が入れ換えられる前の複数の文書データと、の対応関係をさらに記憶させて、前記転置インデックスを生成する、
ことを特徴とする請求項1または2に記載の転置インデックスの生成方法。 - 検索文字列からNグラムを抽出するNグラム抽出ステップと、
請求項1に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定ステップと、
を備えることを特徴とする検索方法。 - 検索文字列からNグラムを抽出するNグラム抽出ステップと、
請求項2に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
を備えることを特徴とする検索方法。 - 検索文字列からNグラムを抽出するNグラム抽出ステップと、
請求項2に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置と、前記順序が入れ換えられた複数の文書データと前記順序が入れ換えられる前の複数の文書データとの対応関係と、に基づいて、前記順序が入れ換えられる前の複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
を備えることを特徴とする検索方法。 - 見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段と、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段と、
を備えることを特徴とする転置インデックスの生成装置。 - 検索文字列からNグラムを抽出するNグラム抽出手段と、
請求項1に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする検索装置。 - コンピュータを、
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段、
として機能させるためのコンピュータプログラム。 - コンピュータを、
検索文字列からNグラムを抽出するNグラム抽出手段、
請求項1に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010215611A JP5601121B2 (ja) | 2010-09-27 | 2010-09-27 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010215611A JP5601121B2 (ja) | 2010-09-27 | 2010-09-27 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012069071A true JP2012069071A (ja) | 2012-04-05 |
JP5601121B2 JP5601121B2 (ja) | 2014-10-08 |
Family
ID=46166221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010215611A Active JP5601121B2 (ja) | 2010-09-27 | 2010-09-27 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5601121B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0484271A (ja) * | 1990-07-26 | 1992-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書内情報検索装置 |
JPH11161666A (ja) * | 1997-11-28 | 1999-06-18 | Hitachi Ltd | ドキュメントデータ検索方法および装置、並びにドキュメント編集装置 |
JP2000242647A (ja) * | 1999-02-12 | 2000-09-08 | Internatl Business Mach Corp <Ibm> | 関連情報検索方法およびシステム |
JP2005050197A (ja) * | 2003-07-30 | 2005-02-24 | Internatl Business Mach Corp <Ibm> | コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン |
JP2009301511A (ja) * | 2008-06-17 | 2009-12-24 | Ns Solutions Corp | 索引情報作成装置、索引情報作成方法及びプログラム |
-
2010
- 2010-09-27 JP JP2010215611A patent/JP5601121B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0484271A (ja) * | 1990-07-26 | 1992-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書内情報検索装置 |
JPH11161666A (ja) * | 1997-11-28 | 1999-06-18 | Hitachi Ltd | ドキュメントデータ検索方法および装置、並びにドキュメント編集装置 |
JP2000242647A (ja) * | 1999-02-12 | 2000-09-08 | Internatl Business Mach Corp <Ibm> | 関連情報検索方法およびシステム |
JP2005050197A (ja) * | 2003-07-30 | 2005-02-24 | Internatl Business Mach Corp <Ibm> | コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン |
JP2009301511A (ja) * | 2008-06-17 | 2009-12-24 | Ns Solutions Corp | 索引情報作成装置、索引情報作成方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5601121B2 (ja) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5798814B2 (ja) | リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム | |
US8117026B2 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
US20120330955A1 (en) | Document similarity calculation device | |
CN104462030B (zh) | 字符转换装置、字符转换方法 | |
Akram et al. | Word segmentation for Urdu OCR system | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
JP5083367B2 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP5601121B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5601123B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5979650B2 (ja) | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム | |
KR101113787B1 (ko) | 텍스트 색인 장치 및 방법 | |
JP5601116B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP2009271819A (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP5380566B2 (ja) | 言語処理装置、プログラムおよび方法 | |
JP2006318509A (ja) | 解データ編集処理装置および処理方法 | |
JP5547030B2 (ja) | 情報分析装置及び方法及びプログラム | |
JP2010146061A (ja) | 例文表示装置、例文表示方法および例文表示プログラム | |
JP2008276561A (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
WO2007011140A1 (en) | Method of extracting topics and issues and method and apparatus for providing search results based on topics and issues | |
JP5533197B2 (ja) | 検索装置、ならびに、コンピュータプログラム | |
JP5708117B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5575075B2 (ja) | 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130918 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140702 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140722 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5601121 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |