JP5533197B2 - 検索装置、ならびに、コンピュータプログラム - Google Patents
検索装置、ならびに、コンピュータプログラム Download PDFInfo
- Publication number
- JP5533197B2 JP5533197B2 JP2010102367A JP2010102367A JP5533197B2 JP 5533197 B2 JP5533197 B2 JP 5533197B2 JP 2010102367 A JP2010102367 A JP 2010102367A JP 2010102367 A JP2010102367 A JP 2010102367A JP 5533197 B2 JP5533197 B2 JP 5533197B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- gram
- document
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のうち、N=1〜k−1のk−1個(kは自然数)のNグラムについては当該Nグラムが含まれる出現文書番号を構成要素とし、N=kのNグラムについては前記複数の文書データ中の出現位置情報を構成要素とする転置インデックスを記憶する記憶手段と、
検索文字列がk文字以上のときは、N=kのNグラムを使用して、前記検索文字列からNグラムを抽出し、前記検索文字列がk文字未満のときは、前記検索文字列をNグラムとして抽出するNグラム抽出手段と、
検索文字列がk文字以上のときは、前記検索文字列から抽出されたNグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記検索文字列がk文字未満のときは、前記転置インデックスの出現文書番号に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする。
前記転置インデックスは、前記複数の文書データから抽出されたNグラムのそれぞれについて、前記複数の文書データ中の出現頻度情報をさらに構成要素とし、
前記文書特定手段は、前記出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、出現頻度の少ないNグラムから順に、文書データの特定に用いる、
ことが望ましい。
複数の検索文字列の論理積による検索の場合に、前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、出現頻度の少ないNグラムを有する検索文字列から順に、文書データの特定に用いる、
ことが望ましい。
検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のうち、N=1〜k−1のk−1個のNグラムについては当該Nグラムが含まれる出現文書番号を構成要素とし、N=kのNグラムについては前記複数の文書データ中の出現位置情報を構成要素とする転置インデックスを記憶する記憶手段を備えるコンピュータを、
検索文字列がk文字以上のときは、N=kのNグラムを使用して、前記検索文字列からNグラムを抽出し、前記検索文字列がk文字未満のときは、前記検索文字列をNグラムとして抽出するNグラム抽出手段、
検索文字列がk文字以上のときは、前記検索文字列から抽出されたNグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記検索文字列がk文字未満のときは、前記転置インデックスの出現文書番号に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、として機能させる。
最初の検索語「雨」は1文字列であるので、ステップS302での判定はNOとなり、ステップS304へ移行し、N=1のNグラム(モノグラム)が抽出される。すなわち、「雨」というモノグラムが1個、抽出される。
次にステップS305でステップS302へ戻り、次の検索語「高速化」は3文字列であるので、ステップS302での判定はYESとなり、ステップS303へ移行し、N=2(=k)のNグラム(バイグラム)が抽出される。すなわち、「高速」、「速化」というバイグラムが2個(3−2+1個)、抽出される。
再びステップS302へ戻り、最後の検索語「全文検索処理」は6文字列であるので、ステップS302での判定はYESとなり、ステップS303へ移行し、N=2(=k)のNグラム(バイグラム)が抽出される。すなわち、「全文」、「文検」、「検索」、「索処」、「処理」というバイグラムが5個(6−2+1個)、抽出される。
最初の検索語「雨」は1文字列であるので、ステップS302での判定はNOとなり、ステップS304へ移行し、N=1のNグラム(モノグラム)が抽出される。すなわち、上記と全く同様に、「雨」というモノグラムが1個、抽出される。
次にステップS305でステップS302へ戻り、次の検索語「高速化」は3文字列であるので、ステップS302での判定は同じくNOとなり、ステップS304へ移行し、N=3のNグラム(トリグラム)が抽出される。すなわち、「高速化」というトリグラムが1個、抽出される。
再びステップS302へ戻り、最後の検索語「全文検索処理」は6文字列であるので、ステップS302での判定はYESとなり、ステップS303へ移行し、N=4(=k)のNグラムが抽出される。すなわち、「全文検索」、「文検索処」、「検索処理」というNグラムが3個(6−4+1個)、抽出される。
最初の検索語「雨」については、モノグラム「雨」1個なので、これが最少出現頻度のNグラム(モノグラム)となる。
次の検索語「高速化」については、2個のバイグラム「高速」と「速化」があり、出現頻度は「速化」5回の方が「高速」15回よりも少ないため、「速化」が最少出現頻度のNグラム(バイグラム)となる。
最後の検索語「全文検索処理」については、5個のバイグラムのうち、「索処」4回が最少であるため、「索処」が最少出現頻度のNグラム(バイグラム)となる。
次に未評価の出現候補文書番号があるかを判定し直して、あれば再び未評価の出現候補文書番号に着目し直すことになる。
Claims (4)
- 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のうち、N=1〜k−1のk−1個(kは自然数)のNグラムについては当該Nグラムが含まれる出現文書番号を構成要素とし、N=kのNグラムについては前記複数の文書データ中の出現位置情報を構成要素とする転置インデックスを記憶する記憶手段と、
検索文字列がk文字以上のときは、N=kのNグラムを使用して、前記検索文字列からNグラムを抽出し、前記検索文字列がk文字未満のときは、前記検索文字列をNグラムとして抽出するNグラム抽出手段と、
検索文字列がk文字以上のときは、前記検索文字列から抽出されたNグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記検索文字列がk文字未満のときは、前記転置インデックスの出現文書番号に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする検索装置。 - 前記転置インデックスは、前記複数の文書データから抽出されたNグラムのそれぞれについて、前記複数の文書データ中の出現頻度情報をさらに構成要素とし、
前記文書特定手段は、前記出現頻度情報に基づいて、前記検索文字列から抽出されたNグラムのうち、出現頻度の少ないNグラムから順に、文書データの特定に用いる、
ことを特徴とする請求項1に記載の検索装置。 - 複数の検索文字列の論理積による検索の場合に、前記文書特定手段は、前記転置インデックスの出現頻度情報に基づいて、出現頻度の少ないNグラムを有する検索文字列から順に、文書データの特定に用いる、
ことを特徴とする請求項2に記載の検索装置。 - 検索対象の複数の文書データから抽出された「N文字の文字列であるNグラム(Nは自然数)」のうち、N=1〜k−1のk−1個のNグラムについては当該Nグラムが含まれる出現文書番号を構成要素とし、N=kのNグラムについては前記複数の文書データ中の出現位置情報を構成要素とする転置インデックスを記憶する記憶手段を備えるコンピュータを、
検索文字列がk文字以上のときは、N=kのNグラムを使用して、前記検索文字列からNグラムを抽出し、前記検索文字列がk文字未満のときは、前記検索文字列をNグラムとして抽出するNグラム抽出手段、
検索文字列がk文字以上のときは、前記検索文字列から抽出されたNグラムについて、前記転置インデックスの出現位置情報に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記検索文字列がk文字未満のときは、前記転置インデックスの出現文書番号に基づいて、前記複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102367A JP5533197B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、ならびに、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102367A JP5533197B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、ならびに、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011232942A JP2011232942A (ja) | 2011-11-17 |
JP5533197B2 true JP5533197B2 (ja) | 2014-06-25 |
Family
ID=45322202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010102367A Active JP5533197B2 (ja) | 2010-04-27 | 2010-04-27 | 検索装置、ならびに、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5533197B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3849274B2 (ja) * | 1998-01-14 | 2006-11-22 | 富士ゼロックス株式会社 | 文書検索装置および記録媒体 |
JP4115048B2 (ja) * | 1999-08-17 | 2008-07-09 | 株式会社リコー | 文書検索システム |
JP2006163623A (ja) * | 2004-12-03 | 2006-06-22 | Nippon Hoso Kyokai <Nhk> | 質問応答装置及び質問応答プログラム、並びに、テレビ受像機 |
JP4237813B2 (ja) * | 2008-05-26 | 2009-03-11 | 株式会社東芝 | 構造化文書管理システム |
-
2010
- 2010-04-27 JP JP2010102367A patent/JP5533197B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011232942A (ja) | 2011-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bennani-Smires et al. | Simple unsupervised keyphrase extraction using sentence embeddings | |
US9195738B2 (en) | Tokenization platform | |
KR100721406B1 (ko) | 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN104462085B (zh) | 检索关键词纠错方法及装置 | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
JP5115741B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
WO2008145055A1 (fr) | Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie | |
CN109800427B (zh) | 一种分词方法、装置、终端及计算机可读存储介质 | |
CN105653697B (zh) | 一种推荐词检索方法及系统 | |
WO2018156351A1 (en) | Corpus specific generative query completion assistant | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
JP5083367B2 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
JP2010134922A (ja) | 類似語決定方法およびシステム | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2009086903A (ja) | 検索サービス装置 | |
US20220253604A1 (en) | Context-based keyphrase extraction from input text | |
JP5533197B2 (ja) | 検索装置、ならびに、コンピュータプログラム | |
KR101694179B1 (ko) | 모음 제거 기반 인덱스 생성 방법 및 장치 | |
JP2002297660A (ja) | 文字列類似度算出方法、装置、プログラム及び記録媒体 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP5601123B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP5601116B2 (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5533197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |