JP2016058016A - 検索インデックス作成装置、検索インデックス作成方法及びプログラム - Google Patents
検索インデックス作成装置、検索インデックス作成方法及びプログラム Download PDFInfo
- Publication number
- JP2016058016A JP2016058016A JP2014186097A JP2014186097A JP2016058016A JP 2016058016 A JP2016058016 A JP 2016058016A JP 2014186097 A JP2014186097 A JP 2014186097A JP 2014186097 A JP2014186097 A JP 2014186097A JP 2016058016 A JP2016058016 A JP 2016058016A
- Authority
- JP
- Japan
- Prior art keywords
- gram
- extracted
- character
- same
- bigram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
検索対象文書から、N文字の文字列であるNグラムを抽出する抽出手段と、
前記抽出手段が抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別手段と、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別手段と、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別手段が判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加手段と、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別手段が判別した場合であって、前記抽出手段が抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加手段と、
前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す繰り返し手段と、
前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成手段と、
を備えることを特徴とする。
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
検索対象文書から、N文字の文字列であるNグラムを抽出する抽出手段と、
前記抽出手段が抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別手段と、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別手段と、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別手段が判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加手段と、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別手段が判別した場合であって、前記抽出手段が抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加手段と、
前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す繰り返し手段と、
前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成手段と、
を備えることを特徴とする検索インデックス作成装置。
前記繰り返し手段は、前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を、前記検索対象文書における先頭の文字から順に1文字ずつ変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す、
ことを特徴とする付記1に記載の検索インデックス作成装置。
前記検索インデックス作成手段は、前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に含まれる、前記検索対象文書における位置を示す位置情報が紐付けられた各Nグラムを、文字コード順に並べ替えて、前記検索インデックスを作成する、
ことを特徴とする付記1又は2に記載の検索インデックス作成装置。
検索対象文書から、N文字の文字列であるNグラムを抽出する抽出ステップと、
前記抽出ステップで抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別ステップと、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別ステップで判別した場合、前記抽出ステップで抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別ステップと、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別ステップで判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別ステップで判別した場合、前記抽出ステップで抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加ステップと、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別ステップで判別した場合であって、前記抽出ステップで抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加ステップと、
前記抽出ステップで前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出ステップ、前記第1の判別ステップ、前記第2の判別ステップ、前記Nグラム追加ステップ、及び前記位置情報追加ステップの処理を繰り返す繰り返しステップと、
前記繰り返しステップで繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成ステップと、
を含む検索インデックス作成方法。
コンピュータを、
検索対象文書から、N文字の文字列であるNグラムを抽出する抽出手段、
前記抽出手段が抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別手段、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別手段、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別手段が判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加手段、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別手段が判別した場合であって、前記抽出手段が抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加手段、
前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す繰り返し手段、
前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成手段、
として機能させるためのプログラム。
Claims (5)
- 検索対象文書から、N文字の文字列であるNグラムを抽出する抽出手段と、
前記抽出手段が抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別手段と、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別手段と、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別手段が判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加手段と、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別手段が判別した場合であって、前記抽出手段が抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加手段と、
前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す繰り返し手段と、
前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成手段と、
を備えることを特徴とする検索インデックス作成装置。 - 前記繰り返し手段は、前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を、前記検索対象文書における先頭の文字から順に1文字ずつ変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す、
ことを特徴とする請求項1に記載の検索インデックス作成装置。 - 前記検索インデックス作成手段は、前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に含まれる、前記検索対象文書における位置を示す位置情報が紐付けられた各Nグラムを、文字コード順に並べ替えて、前記検索インデックスを作成する、
ことを特徴とする請求項1又は2に記載の検索インデックス作成装置。 - 検索対象文書から、N文字の文字列であるNグラムを抽出する抽出ステップと、
前記抽出ステップで抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別ステップと、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別ステップで判別した場合、前記抽出ステップで抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別ステップと、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別ステップで判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別ステップで判別した場合、前記抽出ステップで抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加ステップと、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別ステップで判別した場合であって、前記抽出ステップで抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加ステップと、
前記抽出ステップで前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出ステップ、前記第1の判別ステップ、前記第2の判別ステップ、前記Nグラム追加ステップ、及び前記位置情報追加ステップの処理を繰り返す繰り返しステップと、
前記繰り返しステップで繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成ステップと、
を含む検索インデックス作成方法。 - コンピュータを、
検索対象文書から、N文字の文字列であるNグラムを抽出する抽出手段、
前記抽出手段が抽出した前記Nグラムと第1文字が同一であるNグラムが、抽出済みNグラム群に含まれているか否かを判別する第1の判別手段、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていると前記第1の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムと第2文字が同一であるNグラムが、前記第1文字が同一である前記Nグラムに含まれているか否かを判別する第2の判別手段、
前記第1文字が同一である前記Nグラムが前記抽出済みNグラム群に含まれていないと前記第1の判別手段が判別した場合、及び、前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていないと前記第2の判別手段が判別した場合、前記抽出手段が抽出した前記Nグラムを、該Nグラムの前記検索対象文書における位置を示す位置情報と紐付けて、前記抽出済みNグラム群に追加するNグラム追加手段、
前記第2文字が同一である前記Nグラムが、前記第1文字が同一である前記Nグラムの中に含まれていると前記第2の判別手段が判別した場合であって、前記抽出手段が抽出した前記Nグラムが前記抽出済みNグラム群に含まれている場合、該Nグラムの前記検索対象文書における位置を示す位置情報を、前記抽出済みNグラム群において該Nグラムに紐付けられた位置情報に追加する位置情報追加手段、
前記抽出手段が前記検索対象文書から前記Nグラムを抽出する位置を変えて、前記抽出手段、前記第1の判別手段、前記第2の判別手段、前記Nグラム追加手段、及び前記位置情報追加手段の処理を繰り返す繰り返し手段、
前記繰り返し手段が繰り返し処理を実行した後の前記抽出済みNグラム群に基づいて、前記検索対象文書に含まれる各Nグラムと、該各Nグラムの前記検索対象文書における位置を示す位置情報と、が紐付けられた検索インデックスを作成する検索インデックス作成手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014186097A JP2016058016A (ja) | 2014-09-12 | 2014-09-12 | 検索インデックス作成装置、検索インデックス作成方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014186097A JP2016058016A (ja) | 2014-09-12 | 2014-09-12 | 検索インデックス作成装置、検索インデックス作成方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016058016A true JP2016058016A (ja) | 2016-04-21 |
Family
ID=55758752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014186097A Pending JP2016058016A (ja) | 2014-09-12 | 2014-09-12 | 検索インデックス作成装置、検索インデックス作成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016058016A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067400A (ja) * | 2001-08-27 | 2003-03-07 | Mitsubishi Electric Corp | 文書検索装置、文書検索方法および文書検索プログラム |
JP2008065395A (ja) * | 2006-09-04 | 2008-03-21 | Fuji Xerox Co Ltd | 翻訳装置、翻訳方法および翻訳プログラム |
JP2009093556A (ja) * | 2007-10-11 | 2009-04-30 | Hitachi Ltd | インデクス構築方法、文書検索装置及びインデクス構築プログラム |
JP2011210094A (ja) * | 2010-03-30 | 2011-10-20 | Hitachi Solutions Ltd | 検索機能付きファイルストレージ装置及びプログラム |
-
2014
- 2014-09-12 JP JP2014186097A patent/JP2016058016A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067400A (ja) * | 2001-08-27 | 2003-03-07 | Mitsubishi Electric Corp | 文書検索装置、文書検索方法および文書検索プログラム |
JP2008065395A (ja) * | 2006-09-04 | 2008-03-21 | Fuji Xerox Co Ltd | 翻訳装置、翻訳方法および翻訳プログラム |
JP2009093556A (ja) * | 2007-10-11 | 2009-04-30 | Hitachi Ltd | インデクス構築方法、文書検索装置及びインデクス構築プログラム |
JP2011210094A (ja) * | 2010-03-30 | 2011-10-20 | Hitachi Solutions Ltd | 検索機能付きファイルストレージ装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8473501B2 (en) | Methods, computer systems, software and storage media for handling many data elements for search and annotation | |
US20160006456A1 (en) | Compression device, compression method, dictionary generation device, dictionary generation method, decompression device, decompression method, information processing system, and recording medium | |
WO2016095645A1 (zh) | 笔画输入方法、装置和系统 | |
KR102182672B1 (ko) | 다국어 통합 자음 패턴 검색 방법 및 그 장치 | |
US10387543B2 (en) | Phoneme-to-grapheme mapping systems and methods | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
JP5083367B2 (ja) | 検索装置、検索方法、ならびに、コンピュータプログラム | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
WO2018040356A1 (zh) | 一种连续字符与模糊字符的检索系统及方法 | |
JP6737117B2 (ja) | 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 | |
JP2016058016A (ja) | 検索インデックス作成装置、検索インデックス作成方法及びプログラム | |
KR20080082985A (ko) | 데이터 파일 조작 방법 및 장치 | |
CN108595584B (zh) | 一种基于数字标记的汉字输出方法和系统 | |
KR101247346B1 (ko) | 사전 검색 서비스 시스템 및 방법 | |
WO2017009958A1 (ja) | 圧縮プログラム、圧縮方法および圧縮装置 | |
KR102317910B1 (ko) | 중국어 형태소 분석 장치 및 방법 | |
US10546061B2 (en) | Predicting terms by using model chunks | |
JP5971069B2 (ja) | 情報処理装置、タイトル抽出方法及びプログラム | |
KR102222769B1 (ko) | 전화번호 검색 방법 및 장치 | |
JP5648360B2 (ja) | 文字列検索装置、文字列検索方法および文字列検索プログラム | |
Lehal et al. | Automatic Bilingual Legacy-Fonts Identification and Conversion System. | |
JP5526985B2 (ja) | 検索プログラム、検索装置、および検索方法 | |
JP2006126883A (ja) | 情報検索装置及び情報検索方法 | |
JP4061283B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
EP3061007B1 (en) | Method for the generation of an it ontology, computer program product configured to implement the operations of said method and it equipment configured to execute said computer program product. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170911 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180703 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180831 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190108 |