JP4734400B2 - 文書検索装置およびプログラム - Google Patents
文書検索装置およびプログラム Download PDFInfo
- Publication number
- JP4734400B2 JP4734400B2 JP2008322555A JP2008322555A JP4734400B2 JP 4734400 B2 JP4734400 B2 JP 4734400B2 JP 2008322555 A JP2008322555 A JP 2008322555A JP 2008322555 A JP2008322555 A JP 2008322555A JP 4734400 B2 JP4734400 B2 JP 4734400B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- partial character
- information
- document
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (7)
- 記憶媒体に記憶される複数の文書の中から、入力装置を通じて指定される検索文字列を含む文書を検索する文書検索装置であって、
前記複数の文書に含まれる個々の部分文字列をそれぞれインデクスとし、個々のインデクスはレコードとして少なくとも1つの部分文字列出現情報を備え、個々の部分文字列出現情報は、少なくとも当該部分文字列を含む文書内での当該部分文字列に後続する部分文字列、および、当該後続する部分文字列に対応するインデクスのレコードにおける抽出すべき部分文字列出現情報の配置位置を指定するものであり、個々の部分文字列出現情報の少なくとも一部が文書を識別するための文書識別情報を含んでいる、索引情報を記憶する索引情報記憶手段と、
入力装置を通じて指定される検索文字列を複数の部分文字列に区切る部分文字列区切手段と、
区切られた検索文字列の先頭に位置する部分文字列に対応する前記索引情報内のインデクスのレコードから全ての部分文字列出現情報を読み出す手段と、
読み出された全ての部分文字列出現情報のうち、指定されている後続の部分文字列が前記検索文字列の中の後続する部分文字列に合致するものがある場合に、該当する部分文字列出現情報を抽出する手段と、
抽出された部分文字列出現情報に指定されている後続の部分文字列に対応する前記索引情報内のインデクスのレコードから、当該抽出された部分文字列出現情報に指定されている配置位置にある部分文字列出現情報を読み出す手段と、
読み出された部分文字列出現情報に指定されている後続の部分文字列が前記検索文字列の中の後続する部分文字列に合致する場合に、当該読み出された部分文字列出現情報に指定されている後続の部分文字列に対応する前記索引情報内のインデクスのレコードから、当該読み出された部分文字列出現情報に指定されている配置位置にある部分文字列出現情報を読み出すという処理を繰り返す手段と、
前記繰り返しの処理において読み出される部分文字列出現情報に指定されている後続の部分文字列が、前記検索文字列の中の終端に位置する部分文字列に合致した時点で、個々の部分文字列出現情報のいずれかの読み出しにおいて得られた文書識別情報を出力する手段と
を具備することを特徴とする文書検索装置。 - 前記索引情報の中には、文書識別情報を含む部分文字列出現情報と、文書識別情報を含まない部分文字列出現情報とが存在することを特徴とする請求項1に記載の文書検索装置。
- 前記複数の文書を構成する複数の部分文字列のうち、1つおきに配置された部分文字列に対応する前記索引情報内のインデクスは、当該文書の文書識別情報が省略された部分文字列出現情報を備えていることを特徴とする請求項1に記載の文書検索装置。
- 個々の部分文字列は、文字列をN文字ごとのN−gramに分解したものであることを特徴とする請求項1乃至3のいずれか1項に記載の文書検索装置。
- 個々の部分文字列は、文字列を形態素解析により個々の形態素に分解したものであることを特徴とする請求項1乃至3のいずれか1項に記載の文書検索装置。
- 文書の文書識別情報毎に、レコードとして、当該文書の先頭に位置する部分文字列、および、当該部分文字列に対応する前記索引情報内のインデクスのレコードにおける抽出すべき部分文字列出現情報の配置位置が指定された先頭情報を有する、文書復元用情報を記憶する手段と、
入力装置を通じて指定される文書識別情報もしくは前記出力する手段から出力される文書識別情報に対応する先頭情報を、前記文書復元用情報内のレコードから読み出す手段と、
読み出された先頭情報に指定されている部分文字列を前記記憶領域に記憶させると共に、当該読み出された先頭情報に指定されている部分文字列に対応する前記索引情報内のインデクスのレコードから、当該読み出された先頭情報に指定されている配置位置にある部分文字列出現情報を読み出す手段と、
読み出された部分文字列出現情報に指定されている後続の部分文字列を所定の記憶領域に記憶させると共に、当該読み出された部分文字列出現情報に指定されている後続の部分文字列に対応する前記索引情報内のインデクスのレコードから、当該読み出された部分文字列出現情報に指定されている配置位置にある部分文字列出現情報を読み出すという処理を繰り返す手段と、
前記繰り返しの処理において読み出される部分文字列出現情報に後続の部分文字列が指定されていないことが認められた時点で、前記記憶領域に記憶されている個々の部分文字列を合わせたものを1つの文書として出力する手段と
を更に具備することを特徴とする請求項1乃至5のいずれか1項に記載の文書検索装置。 - 記憶媒体に記憶される複数の文書の中から、入力装置を通じて指定される検索文字列を含む文書を検索するためのプログラムであって、
前記複数の文書に含まれる個々の部分文字列をそれぞれインデクスとし、個々のインデクスはレコードとして少なくとも1つの部分文字列出現情報を備え、個々の部分文字列出現情報は、少なくとも当該部分文字列を含む文書内での当該部分文字列に後続する部分文字列、および、当該後続する部分文字列に対応するインデクスのレコードにおける抽出すべき部分文字列出現情報の配置位置を指定するものであり、個々の部分文字列出現情報の少なくとも一部が文書を識別するための文書識別情報を含んでいる、索引情報を記憶媒体に記憶させる機能と、
入力装置を通じて指定される検索文字列を複数の部分文字列に区切る機能と、
区切られた検索文字列の先頭に位置する部分文字列に対応する前記索引情報内のインデクスのレコードから全ての部分文字列出現情報を読み出す機能と、
読み出された全ての部分文字列出現情報のうち、指定されている後続の部分文字列が前記検索文字列の中の後続する部分文字列に合致するものがある場合に、該当する部分文字列出現情報を抽出する機能と、
抽出された部分文字列出現情報に指定されている後続の部分文字列に対応する前記索引情報内のインデクスのレコードから、当該抽出された部分文字列出現情報に指定されている配置位置にある部分文字列出現情報を読み出す機能と、
読み出された部分文字列出現情報に指定されている後続の部分文字列が前記検索文字列の中の後続する部分文字列に合致する場合に、当該読み出された部分文字列出現情報に指定されている後続の部分文字列に対応する前記索引情報内のインデクスのレコードから、当該読み出された部分文字列出現情報に指定されている配置位置にある部分文字列出現情報を読み出すという処理を繰り返す機能と、
前記繰り返しの処理において読み出される部分文字列出現情報に指定されている後続の部分文字列が、前記検索文字列の中の終端に位置する部分文字列に合致した時点で、個々の部分文字列出現情報のいずれかの読み出しにおいて得られた文書識別情報を出力する機能と
をコンピュータに実現させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008322555A JP4734400B2 (ja) | 2008-12-18 | 2008-12-18 | 文書検索装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008322555A JP4734400B2 (ja) | 2008-12-18 | 2008-12-18 | 文書検索装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010146273A JP2010146273A (ja) | 2010-07-01 |
JP4734400B2 true JP4734400B2 (ja) | 2011-07-27 |
Family
ID=42566653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008322555A Expired - Fee Related JP4734400B2 (ja) | 2008-12-18 | 2008-12-18 | 文書検索装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4734400B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5708117B2 (ja) * | 2011-03-24 | 2015-04-30 | カシオ計算機株式会社 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
JP6972653B2 (ja) | 2017-05-16 | 2021-11-24 | 富士通株式会社 | 解析プログラム、解析方法および解析装置 |
JP7006462B2 (ja) | 2018-04-02 | 2022-01-24 | 富士通株式会社 | データ生成プログラム、データ生成方法および情報処理装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200287A (ja) * | 1999-01-07 | 2000-07-18 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2000231563A (ja) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004164223A (ja) * | 2002-11-12 | 2004-06-10 | Fujitsu Ltd | N文字インデックス作成プログラムおよびn文字インデックス検索プログラム |
-
2008
- 2008-12-18 JP JP2008322555A patent/JP4734400B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200287A (ja) * | 1999-01-07 | 2000-07-18 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2000231563A (ja) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004164223A (ja) * | 2002-11-12 | 2004-06-10 | Fujitsu Ltd | N文字インデックス作成プログラムおよびn文字インデックス検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2010146273A (ja) | 2010-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070050709A1 (en) | Character input aiding method and information processing apparatus | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP4237813B2 (ja) | 構造化文書管理システム | |
US8065283B2 (en) | Term synonym generation | |
JP4734400B2 (ja) | 文書検索装置およびプログラム | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP3784060B2 (ja) | データベース検索システム、その検索方法及びプログラム | |
JP2018067264A (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP6723726B2 (ja) | 入力支援装置 | |
JP6589704B2 (ja) | 文境界推定装置、方法およびプログラム | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP7083473B2 (ja) | 入力支援装置 | |
JP4294386B2 (ja) | 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体 | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP2013077084A (ja) | 文例辞書生成プログラム及び文例辞書生成装置 | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
JP4139805B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP2007172315A (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
JP5742454B2 (ja) | 入力支援プログラム、入力支援装置、及び入力支援方法 | |
JP2022175661A (ja) | 校正支援装置、校正支援方法、及びプログラム | |
JP2003177923A (ja) | ポーティング支援システムにおける予約語変換方法 | |
JP6172447B2 (ja) | 関連性判定システム、方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110425 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |