JP4750476B2 - 文書検索装置及び方法と記憶媒体 - Google Patents
文書検索装置及び方法と記憶媒体 Download PDFInfo
- Publication number
- JP4750476B2 JP4750476B2 JP2005167347A JP2005167347A JP4750476B2 JP 4750476 B2 JP4750476 B2 JP 4750476B2 JP 2005167347 A JP2005167347 A JP 2005167347A JP 2005167347 A JP2005167347 A JP 2005167347A JP 4750476 B2 JP4750476 B2 JP 4750476B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- document
- search result
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Description
紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置であって、
前記文書データを検索するための検索クエリを入力する入力手段と、
前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合手段と、
前記照合手段で抽出された前記文字列とヒット順位を保持する検索結果保持手段と、
前記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析手段と、
前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定手段と、
前記領域ヒット判定手段により前記検索結果保持手段に保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持手段に保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力手段と、
を有することを特徴とする。
紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置を制御する文書検索方法であって、
前記文書検索装置の入力手段が、前記文書データを検索するための検索クエリを入力する入力工程と、
前記文書検索装置の照合手段が、前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合工程と、
前記文書検索装置の検索結果保持手段が、前記照合工程で抽出された前記文字列とヒット順位を保持する検索結果保持工程と、
前記文書検索装置の解析手段が、前記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析工程と、
前記文書検索装置の領域ヒット判定手段が、前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定工程と、
前記文書検索装置の検索結果出力段が、前記領域ヒット判定工程で前記検索結果保持工程で保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持工程で保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力工程と、を有することを特徴とする。
次にオペレータは、その誤認識された文字列「イラク」を探すために検索クエリ「イラク」を発行する(203)。本実施の形態における検索処理では、類似語展開処理によって類似した文字(展開クエリ)は一致するとみなして検索するため、原文の文字列「イラクへの」中の「イテク」が検索結果として見つかる。「ハイテク」の中にも同じ文字列が存在するが、こちらは「ハイテク」という文節が解析されている中でのヒットなので、ヒット順位を下げて検索結果として出力される。
そして「人間」を検索するために検索クエリ「人間」を発行する(207)。これにより類似文字を含めて検索され、文字列「人関への」中の「人関」がヒットする。このとき「被告人関係者」中の「人関」は「被告人」「関係者」が解析できた文節となるので、ヒット順位を下げて検索結果として出力される。
尚、本発明は上述の実施の形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。上述の実施の形態においては、言語解析の手法として形態素解析を使用したが、それ以外の実現形態も考えられる。例えば、単に単語に分割するだけの手法に基づく方式も考えられる。この場合は付属語の部分は一切解析されずに未知語領域として処理されることになる。これにより解析の精度が低下するという欠点があるものの、形態素解析に比べて解析処理が軽くて済み、より軽量なシステムを構成することができる。
Claims (10)
- 紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置であって、
前記文書データを検索するための検索クエリを入力する入力手段と、
前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合手段と、
前記照合手段で抽出された前記文字列とヒット順位を保持する検索結果保持手段と、
前記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析手段と、
前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定手段と、
前記領域ヒット判定手段により前記検索結果保持手段に保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持手段に保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力手段と、
を有することを特徴とする文書検索装置。 - 前記検索結果出力手段は、前記領域ヒット判定手段により前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持手段に保持された文字列のヒット順位を減少させるスコア補正手段を有し、
前記スコア補正手段により得られたヒット順位に応じた順番で前記文字列を検索結果として出力することを特徴とする請求項1に記載の文書検索装置。 - 前記展開クエリは、前記検索クエリを構成する文字を文字認識した場合に誤認識される確率の高い文字を、前記検索クエリを構成する対応する文字と入れ替えて構成される文字列であることを特徴とする請求項1に記載の文書検索装置。
- 前記照合手段は、前記一致する文字列に含まれる前記検索クエリの文字と一致している文字数、及び前記一致する文字列に含まれる前記展開クエリの文字と一致している文字数とにより前記一致する文字列の類似度を求め、前記検索結果出力手段では、前記類似度を用いて前記文字列のヒット順位を決定して前記文字列を検索結果として出力することを特徴とする請求項1乃至3のいずれか1項に記載の文書検索装置。
- 前記解析手段は、前記文書データの形態素解析を行い、形態素解析して得られた文節に含まれる単語が単語辞書に含まれているか否かに応じて前記未知語領域を識別することを特徴とする請求項1乃至4のいずれか1項に記載の文書検索装置。
- 前記解析手段は、前記文書データの形態素解析を行い、形態素解析して得られた各文節の文節長と自立語長とから前記未知語領域を識別することを特徴とする請求項1乃至5のいずれか1項に記載の文書検索装置。
- 前記スコア補正手段は、前記照合手段により抽出された文字列が含まれる文節の最大文字数を、前記抽出された文字列の類似度から減算して類似度を低下させることを特徴とする請求項2に記載の文書検索装置。
- 紙文書をスキャンし文字認識して得られた文書データを検索する文書検索装置を制御する文書検索方法であって、
前記文書検索装置の入力手段が、前記文書データを検索するための検索クエリを入力する入力工程と、
前記文書検索装置の照合手段が、前記検索クエリと当該検索クエリに類似する展開クエリとを基に、前記文書データを検索して前記検索クエリ及び前記展開クエリに一致する文字列を抽出する照合工程と、
前記文書検索装置の検索結果保持手段が、前記照合工程で抽出された前記文字列とヒット順位を保持する検索結果保持工程と、
前記文書検索装置の解析手段が、前記文書データを形態素解析辞書を参照して解析し、未知語を含む文書データの領域である未知語領域を識別する解析工程と、
前記文書検索装置の領域ヒット判定手段が、前記検索結果保持手段に保持された前記文字列が、前記未知語領域の文字列を含むか否かを判定する領域ヒット判定工程と、
前記文書検索装置の検索結果出力段が、前記領域ヒット判定工程で前記検索結果保持工程で保持された前記文字列が前記未知語領域の文字列を含まないと判定された場合に、前記検索結果保持工程で保持された前記文字列のヒット順位を調整し検索結果として出力する検索結果出力工程と、
を有することを特徴とする文書検索方法。 - 請求項8に記載の文書検索方法をコンピュータに実行させるためのプログラム。
- 請求項9に記載のプログラムを記憶していることを特徴とする、コンピュータにより読取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005167347A JP4750476B2 (ja) | 2005-06-07 | 2005-06-07 | 文書検索装置及び方法と記憶媒体 |
CNB200610088580XA CN100511232C (zh) | 2005-06-07 | 2006-06-06 | 文档检索装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005167347A JP4750476B2 (ja) | 2005-06-07 | 2005-06-07 | 文書検索装置及び方法と記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006343870A JP2006343870A (ja) | 2006-12-21 |
JP2006343870A5 JP2006343870A5 (ja) | 2008-07-17 |
JP4750476B2 true JP4750476B2 (ja) | 2011-08-17 |
Family
ID=37510012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005167347A Expired - Fee Related JP4750476B2 (ja) | 2005-06-07 | 2005-06-07 | 文書検索装置及び方法と記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4750476B2 (ja) |
CN (1) | CN100511232C (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4930288B2 (ja) * | 2007-09-03 | 2012-05-16 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
CN101630315B (zh) * | 2008-07-16 | 2011-09-14 | 清华大学 | 一种快速检索方法及系统 |
JP5357711B2 (ja) * | 2009-11-17 | 2013-12-04 | 株式会社日立ソリューションズ | 文書処理装置 |
JP5716328B2 (ja) * | 2010-09-14 | 2015-05-13 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
CN102567421B (zh) * | 2010-12-27 | 2014-04-02 | 北大方正集团有限公司 | 文档检索方法和装置 |
JP6003705B2 (ja) | 2013-02-14 | 2016-10-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN104424255B (zh) * | 2013-08-28 | 2019-02-01 | 阿尔派株式会社 | 检索装置及检索方法 |
JP7139669B2 (ja) * | 2018-04-17 | 2022-09-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11797551B2 (en) * | 2019-02-14 | 2023-10-24 | Resonac Corporation | Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP3744676B2 (ja) * | 1998-03-20 | 2006-02-15 | 沖電気工業株式会社 | 情報抽出装置及びその方法 |
JP4332356B2 (ja) * | 2003-01-22 | 2009-09-16 | キヤノン株式会社 | 情報検索装置及び方法並びに制御プログラム |
-
2005
- 2005-06-07 JP JP2005167347A patent/JP4750476B2/ja not_active Expired - Fee Related
-
2006
- 2006-06-06 CN CNB200610088580XA patent/CN100511232C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006343870A (ja) | 2006-12-21 |
CN1877578A (zh) | 2006-12-13 |
CN100511232C (zh) | 2009-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4750476B2 (ja) | 文書検索装置及び方法と記憶媒体 | |
JP4306894B2 (ja) | 自然言語処理装置及びその方法、及び自然言語認識装置 | |
US20040267734A1 (en) | Document search method and apparatus | |
US20080040098A1 (en) | Machine translation apparatus and method | |
US20060095426A1 (en) | System and method for creating document abstract | |
US20050097080A1 (en) | System and method for automatically locating searched text in an image file | |
JP3220886B2 (ja) | 文書検索方法および装置 | |
US20120143897A1 (en) | Wild Card Auto Completion | |
JP2004227227A (ja) | 情報検索装置 | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
JP2002510089A (ja) | 光学的文字認識により作成された電子的文書を検索するためのシステムおよび方法 | |
Bechtel | Developments in computer science with application to text analysis | |
JP5430312B2 (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
US6754386B1 (en) | Method and system of matching ink processor and recognizer word breaks | |
JPH11224258A (ja) | 画像検索装置及びその方法、コンピュータ可読メモリ | |
JP4208566B2 (ja) | 文書画像検索装置及びその方法、文書画像検索システム、プログラム | |
KR101245631B1 (ko) | 근사조합장치, 근사조합방법, 프로그램 및 기록매체 | |
JP6916437B2 (ja) | 情報処理装置、その制御方法、及びプログラム | |
US20040054677A1 (en) | Method for processing text in a computer and a computer | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP7172343B2 (ja) | 文書検索用プログラム | |
US7523031B1 (en) | Information processing apparatus and method capable of processing plurality type of input information | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP2011198285A (ja) | 文書処理システム、及びプログラム | |
JP2000029901A (ja) | 画像検索装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080528 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110516 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110519 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |