JP2006343870A - 文書検索装置及び方法と記憶媒体 - Google Patents
文書検索装置及び方法と記憶媒体 Download PDFInfo
- Publication number
- JP2006343870A JP2006343870A JP2005167347A JP2005167347A JP2006343870A JP 2006343870 A JP2006343870 A JP 2006343870A JP 2005167347 A JP2005167347 A JP 2005167347A JP 2005167347 A JP2005167347 A JP 2005167347A JP 2006343870 A JP2006343870 A JP 2006343870A
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- query
- matching
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】 検索クエリと当該検索クエリの展開クエリとを基に、検索対象の文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出し(S13)、その抽出された文字列が、未知語領域を含むか否かを判定し、未知語領域を含まないと判定された場合に、抽出された文字列の類似度を低下させるように調整し(S14)、その調整された類似度に応じた順番で文字列を検索結果として出力する(S16)。
【選択図】 図11
Description
検索クエリと当該検索クエリの展開クエリとを基に、検索対象の文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する不完全照合手段と、
前記検索対象の文書データを解析して未知語領域を識別する解析手段と、
前記不完全照合手段により抽出された文字列が前記未知語領域を含むか否かを判定する領域ヒット判定手段と、
前記不完全照合手段および前記領域ヒット判定手段の処理結果に基づいて、検索結果を出力する検索結果出力手段とを有することを特徴とする。
検索クエリと当該検索クエリの展開クエリとを基に、検索対象の文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する不完全照合工程と、
前記検索対象の文書データを解析して未知語領域を識別する解析工程と、
前記不完全照合工程で抽出された文字列が前記未知語領域を含むか否かを判定する領域ヒット判定工程と、
前記不完全照合工程および領域ヒット判定工程の処理結果に基づいて、検索結果を出力する検索結果出力工程とを有することを特徴とする。
次にオペレータは、その誤認識された文字列「イラク」を探すために検索クエリ「イラク」を発行する(203)。本実施の形態における検索処理では、類似語展開処理によって類似した文字(展開クエリ)は一致するとみなして検索するため、原文の文字列「イラクへの」中の「イテク」が検索結果として見つかる。「ハイテク」の中にも同じ文字列が存在するが、こちらは「ハイテク」という文節が解析されている中でのヒットなので、ヒット順位を下げて検索結果として出力される。
そして「人間」を検索するために検索クエリ「人間」を発行する(207)。これにより類似文字を含めて検索され、文字列「人関への」中の「人関」がヒットする。このとき「被告人関係者」中の「人関」は「被告人」「関係者」が解析できた文節となるので、ヒット順位を下げて検索結果として出力される。
尚、本発明は上述の実施の形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。上述の実施の形態においては、言語解析の手法として形態素解析を使用したが、それ以外の実現形態も考えられる。例えば、単に単語に分割するだけの手法に基づく方式も考えられる。この場合は付属語の部分は一切解析されずに未知語領域として処理されることになる。これにより解析の精度が低下するという欠点があるものの、形態素解析に比べて解析処理が軽くて済み、より軽量なシステムを構成することができる。
Claims (14)
- 検索クエリと当該検索クエリの展開クエリとを基に、検索対象の文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する不完全照合手段と、
前記検索対象の文書データを解析して未知語領域を識別する解析手段と、
前記不完全照合手段により抽出された文字列が前記未知語領域を含むか否かを判定する領域ヒット判定手段と、
前記不完全照合手段および前記領域ヒット判定手段の処理結果に基づいて、検索結果を出力する検索結果出力手段と、
を有することを特徴とする文書検索装置。 - 前記検索結果出力手段は、前記領域ヒット判定手段により前記未知語領域を含まないと判定された場合に、前記不完全照合手段により抽出された文字列の類似度を低下させるスコア補正手段を有し、
前記スコア補正手段により得られた類似度に応じた順番で前記文字列を検索結果として出力することを特徴とする請求項1に記載の文書検索装置。 - 前記展開クエリは、前記検索クエリを構成する文字を文字認識した場合に誤認識される確立の高い文字を、前記検索クエリを構成する対応する文字と入れ替えて構成される文字列であることを特徴とする請求項1に記載の文書検索装置。
- 前記不完全照合手段は、前記一致する文字列に含まれる前記検索クエリの文字と一致している文字数、及び前記一致する文字列に含まれる前記展開クエリの文字と一致している文字数とにより前記一致する文字列の類似度を求めることを特徴とする請求項1ないし請求項3のいずれかに記載の文書検索装置。
- 前記解析手段は、前記文書データの形態素解析を行い、形態素解析して得られた文節に含まれる単語が単語辞書に含まれているか否かに応じて前記未知語領域を識別することを特徴とする請求項1乃至4のいずれか1項に記載の文書検索装置。
- 前記スコア補正手段は、前記不完全照合手段により抽出された文字列が含まれる文節の最大文字数を、前記抽出された文字列の類似度から減算して類似度を低下させることを特徴とする請求項2に記載の文書検索装置。
- 検索クエリと当該検索クエリの展開クエリとを基に、検索対象の文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する不完全照合工程と、
前記検索対象の文書データを解析して未知語領域を識別する解析工程と、
前記不完全照合工程で抽出された文字列が前記未知語領域を含むか否かを判定する領域ヒット判定工程と、
前記不完全照合工程および領域ヒット判定工程の処理結果に基づいて、検索結果を出力する検索結果出力工程と、
を有することを特徴とする文書検索方法。 - 前記検索結果出力工程において、前記領域ヒット判定工程で前記未知語領域を含まないと判定された場合に、前記不完全照合工程で抽出された文字列の類似度を低下させるスコア補正工程を有し、
前記スコア補正工程により得られた類似度に応じた順番で前記文字列を検索結果として出力することを特徴とする請求項7に記載の文書検索方法。 - 前記展開クエリは、前記検索クエリを構成する文字を文字認識した場合に誤認識される確立の高い文字を、前記検索クエリを構成する対応する文字と入れ替えて構成される文字列であることを特徴とする請求項7に記載の文書検索方法。
- 前記不完全照合工程は、前記一致する文字列に含まれる前記検索クエリの文字と一致している文字数、及び前記一致する文字列に含まれる前記展開クエリの文字と一致している文字数とにより前記一致する文字列の類似度を求めることを特徴とする請求項7乃至9のいずれかに記載の文書検索方法。
- 前記解析工程は、前記文書データの形態素解析を行い、形態素解析して得られた文節に含まれる単語が単語辞書に含まれているか否かに応じて前記未知語領域を識別することを特徴とする請求項7乃至10のいずれか1項に記載の文書検索方法。
- 前記スコア補正工程は、前記不完全照合工程で抽出された文字列が含まれる文節の最大文字数を、前記抽出された文字列の類似度から減算して類似度を低下させることを特徴とする請求項8に記載の文書検索方法。
- 請求項7乃至12のいずれか1項に記載の文書検索方法を実行することを特徴とするプログラム。
- 請求項13に記載のプログラムを記憶していることを特徴とする、コンピュータにより読取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005167347A JP4750476B2 (ja) | 2005-06-07 | 2005-06-07 | 文書検索装置及び方法と記憶媒体 |
CNB200610088580XA CN100511232C (zh) | 2005-06-07 | 2006-06-06 | 文档检索装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005167347A JP4750476B2 (ja) | 2005-06-07 | 2005-06-07 | 文書検索装置及び方法と記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006343870A true JP2006343870A (ja) | 2006-12-21 |
JP2006343870A5 JP2006343870A5 (ja) | 2008-07-17 |
JP4750476B2 JP4750476B2 (ja) | 2011-08-17 |
Family
ID=37510012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005167347A Expired - Fee Related JP4750476B2 (ja) | 2005-06-07 | 2005-06-07 | 文書検索装置及び方法と記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4750476B2 (ja) |
CN (1) | CN100511232C (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009060498A (ja) * | 2007-09-03 | 2009-03-19 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2011107966A (ja) * | 2009-11-17 | 2011-06-02 | Hitachi Solutions Ltd | 文書処理装置 |
JP2012063883A (ja) * | 2010-09-14 | 2012-03-29 | Ricoh Co Ltd | 情報処理装置、情報処理方法、および情報処理プログラム |
US9280725B2 (en) | 2013-02-14 | 2016-03-08 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630315B (zh) * | 2008-07-16 | 2011-09-14 | 清华大学 | 一种快速检索方法及系统 |
CN102567421B (zh) * | 2010-12-27 | 2014-04-02 | 北大方正集团有限公司 | 文档检索方法和装置 |
CN104424255B (zh) * | 2013-08-28 | 2019-02-01 | 阿尔派株式会社 | 检索装置及检索方法 |
JP7139669B2 (ja) * | 2018-04-17 | 2022-09-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11797551B2 (en) * | 2019-02-14 | 2023-10-24 | Resonac Corporation | Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JPH11272695A (ja) * | 1998-03-20 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置及びその方法並びに情報記憶媒体 |
JP2004227227A (ja) * | 2003-01-22 | 2004-08-12 | Canon Inc | 情報検索装置 |
-
2005
- 2005-06-07 JP JP2005167347A patent/JP4750476B2/ja not_active Expired - Fee Related
-
2006
- 2006-06-06 CN CNB200610088580XA patent/CN100511232C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JPH11272695A (ja) * | 1998-03-20 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置及びその方法並びに情報記憶媒体 |
JP2004227227A (ja) * | 2003-01-22 | 2004-08-12 | Canon Inc | 情報検索装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009060498A (ja) * | 2007-09-03 | 2009-03-19 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
JP2011107966A (ja) * | 2009-11-17 | 2011-06-02 | Hitachi Solutions Ltd | 文書処理装置 |
JP2012063883A (ja) * | 2010-09-14 | 2012-03-29 | Ricoh Co Ltd | 情報処理装置、情報処理方法、および情報処理プログラム |
US9280725B2 (en) | 2013-02-14 | 2016-03-08 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
CN100511232C (zh) | 2009-07-08 |
CN1877578A (zh) | 2006-12-13 |
JP4750476B2 (ja) | 2011-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4750476B2 (ja) | 文書検索装置及び方法と記憶媒体 | |
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
US20040267734A1 (en) | Document search method and apparatus | |
US9852122B2 (en) | Method of automated analysis of text documents | |
US20050097080A1 (en) | System and method for automatically locating searched text in an image file | |
US20060095426A1 (en) | System and method for creating document abstract | |
JP3220886B2 (ja) | 文書検索方法および装置 | |
JP2004227227A (ja) | 情報検索装置 | |
JP2002510089A (ja) | 光学的文字認識により作成された電子的文書を検索するためのシステムおよび方法 | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
Bechtel | Developments in computer science with application to text analysis | |
US20050091035A1 (en) | System and method for linguistic collation | |
JP5430312B2 (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP4208566B2 (ja) | 文書画像検索装置及びその方法、文書画像検索システム、プログラム | |
JP3727995B2 (ja) | 文書処理方法及び装置 | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
US20040054677A1 (en) | Method for processing text in a computer and a computer | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP7172343B2 (ja) | 文書検索用プログラム | |
US7523031B1 (en) | Information processing apparatus and method capable of processing plurality type of input information | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2932667B2 (ja) | 情報の検索方法および情報蓄積装置 | |
JP2000029901A (ja) | 画像検索装置及び方法 | |
JP3666066B2 (ja) | 多言語文書登録検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080528 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110516 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110519 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |