JP2009230658A - 文字検索システム - Google Patents
文字検索システム Download PDFInfo
- Publication number
- JP2009230658A JP2009230658A JP2008078021A JP2008078021A JP2009230658A JP 2009230658 A JP2009230658 A JP 2009230658A JP 2008078021 A JP2008078021 A JP 2008078021A JP 2008078021 A JP2008078021 A JP 2008078021A JP 2009230658 A JP2009230658 A JP 2009230658A
- Authority
- JP
- Japan
- Prior art keywords
- character
- data
- correction
- search
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】書類データ101、102を格納する書庫データベース103と、書類データから文字を解析して文字データを作成する解析サーバ1と、文字データを格納する文字データベース104と、任意の文字列を文字データベース104の文字データから検索する検索サーバ3とを備え、検索サーバ3は、文字列を有するとして検索された文字データに対応する書類データを書庫データベース103から抽出して書類データ内の文字列が検索された箇所のサムネイル画像データ、および、検索された文字データの文字列を有する箇所を含む所定領域分の文字データを文字データベース104から抽出した要約データを作成するヒット要約・サムネイル作成機能部303を有する。
【選択図】図1
Description
書類データから文字を解析して文字データを作成する解析サーバと、
文字データを格納する文字データベースと、
任意の文字列を文字データベースの文字データから検索する検索サーバとを備えた文字検索システムにおいて、
検索サーバは、文字列を有するとして検索された文字データに対応する書類データを書庫データベースから抽出して書類データ内の文字列が検索された箇所のサムネイル画像データ、または、検索された文字データの文字列を有する箇所を含む所定領域分の文字データを文字データベースから抽出した要約データの少なくともいずれか一方を作成するものである。
書類データから文字を解析して文字データを作成する解析サーバと、
文字データを格納する文字データベースと、
任意の文字列を文字データベースの文字データから検索する検索サーバとを備えた文字検索システムにおいて、
検索サーバは、文字列を有するとして検索された文字データに対応する書類データを書庫データベースから抽出して書類データ内の文字列が検索された箇所のサムネイル画像データ、または、検索された文字データの文字列を有する箇所を含む所定領域分の文字データを文字データベースから抽出した要約データの少なくともいずれか一方を作成するので、文字の認識結果の確認を容易に行うことができ時間が短縮できる。
以下、本願発明の実施の形態について説明する。図1はこの発明の実施の形態1における文字検索システムの構成を示すブロック図、図2は図1に示した文字検索システムの動作を説明するためのフローチャート、図3および図4は図1に示した文字検索システムの表示手段に表示される画面構成を示す図である。図において、文字検索システムは以下の構成要素から構成されている。まず、例えば文字がデータ形式にて入力されているデータを、ここでは電子データとして称する。そして、この電子データにてなる書類データ102、および、画像を例えばスキャナ5で読み取り画像を表す画像データまたはあらじめ電子化されている画像データを書類データ101として格納する書庫データベース103と、書庫データベース103から解析するための書類データを抽出する登録サーバ2と、登録サーバ2から抽出された書類データの文字を解析して文字データを作成し登録サーバ2に送信する解析サーバ1と、登録サーバ2が解析サーバ1にて解析された文字データを格納するための文字データベース104とを備えている。
図5はこの発明の実施の形態2における文字検索システムの構成を示したブロック図、図6は図5に示した文字検索システムの動作を説明するためのフローチャートである。図において、上記実施の形態1と同様な部分を示す箇所は同一符号を付して説明を省略する。検索サーバ3は、検索にて作成されたサムネイル画像データおよび要約データを巡回してヒット文書閲覧画面405の閲覧自動巡回表示部407に表示する閲覧自動巡回機能部306を備えたものである。
図7はこの発明の実施の形態3における文字検索システムの構成を示すブロック図、図8は図7に示した文字検索システムの動作を説明するためのフローチャート、図9は図7に示した文字検索システムの表示手段に表示される画面構成を示す図である。図において、上記各実施の形態と同様な部分を示す箇所は同一符号を付して説明を省略する。図において、解析サーバ1のイメージ内文字候補抽出機能部203は、画像データの文字の解析において文字の確度を設定し、複数の認識候補を抽出して解析し確度とともに文字データを作成する。検索サーバ3には、文字列の検索において文字列の確度を確度閾値設定部408から設定され、その確度に基づいて検索する確度閾値設定機能部307を備える。
図10はこの発明の実施の形態4における文字検索システムの構成を示したブロック図、図11は図10に示した文字検索システムの動作を説明するためのフローチャートである。図において、上記各実施の形態と同様な部分を示す箇所は同一符号を付して説明を省略する。修正データと修正前の文字との関係を蓄積する修正候補データベース105と、解析サーバ1のイメージ内文字抽出機能部203は、修正候補データベース105の修正データに登録されている文字に対しては修正データの修正文字として書類データの解析を行う修正候補反映機能部204とを備えている。
図12はこの発明の実施の形態5における文字検索システムの構成を示したブロック図、図13は図12に示した文字検索システムの動作を説明するためのフローチャートである。図において、上記各実施の形態と同様な部分を示す箇所は同一符号を付して説明を省略する。修正候補データベース105には、修正データにて修正された修正文字の書類データ内における位置、文字サイズ、確度の付帯情報を付加して保存する付帯情報データベース106と、解析サーバ1のイメージ内文字抽出機能部203は、修正候補データベース105の付帯情報データベース106の修正データの付帯情報に近似する文字においては修正データの修正文字として書類データの解析を行う付帯情報評価修正候補反映機能部205とを備えている。
101,102 書類データ、103 書庫データベース、104 文字データベース、105 修正候補データベース、106 付帯情報データベース、
201a,203 イメージ内文字酵素抽出機能部、204 修正候補反映機能部、
205 付帯情報反映機能部、301 全文検索機能部、302 検索結果表示機能部、303 ヒット要約・サムネイル作成機能部、304 ヒット文書閲覧機能部、
306 閲覧自動巡回機能部、305 誤認識修正機能部、401 全文検索実行画面、402 検索結果表示画面、403 検索ヒット要約表示部、
404 検索ヒットサムネイル表示部、405 ヒット文書閲覧画面、
407 閲覧自動巡回表示部、406 誤認識修正画面。
Claims (8)
- 書類データを格納する書庫データベースと、
上記書類データから文字を解析して文字データを作成する解析サーバと、
上記文字データを格納する文字データベースと、
任意の文字列を上記文字データベースの文字データから検索する検索サーバとを備えた文字検索システムにおいて、
上記検索サーバは、上記文字列を有するとして検索された文字データに対応する上記書類データを上記書庫データベースから抽出して当該書類データ内の上記文字列が検索された箇所のサムネイル画像データ、または、上記検索された文字データの上記文字列を有する箇所を含む所定領域分の文字データを上記文字データベースから抽出した要約データの少なくともいずれか一方を作成することを特徴とする文字検索システム。 - 上記サムネイル画像データまたは上記要約データの少なくともいずれか一方を表示する表示手段を備えたことを特徴とする請求項1に記載の文字検索システム。
- 上記書類データは、画像を表す画像データを有し、
上記解析サーバは、上記画像データから文字を解析するイメージ内文字抽出機能部を有していることを特徴とする請求項2に記載の文字検索システム。 - 上記検索サーバは、上記サムネイル画像データまたは上記要約データの少なくともいずれか一方に対応する上記書類データを読み出して表示するヒット文章閲覧機能部と、
上記ヒット文章閲覧機能部により上記表示手段に表示された上記書類データに対して修正文字の修正データを入力する誤認識修正機能部とを有し、
上記誤認識修正機能部は、上記修正データの内容を上記文字データに反映して登録することを特徴とする請求項3に記載の文字検索システム。 - 上記修正データと修正前の文字との関係を蓄積する修正候補データベースを備え、
上記解析サーバのイメージ内文字抽出機能部は、上記修正候補データベースの修正データに登録されている文字に対しては上記修正データの修正文字として上記書類データの解析を行うことを特徴とする請求項4に記載の文字検索システム。 - 上記修正候補データベースは、上記修正データにて修正された修正文字の上記書類データ内における位置、文字サイズ、確度の付帯情報を保存し、
上記解析サーバのイメージ内文字抽出機能部は、上記修正候補データベースの修正データの付帯情報に近似する文字においては上記修正データの修正文字として上記書類データの解析を行うことを特徴とする請求項5に記載の文字検索システム。 - 上記解析サーバのイメージ内文字抽出機能部は、上記画像データの文字の解析において上記文字の確度を設定して解析して上記文字データを作成し、
上記検索サーバは、上記文字列の検索において上記文字列の確度を設定して検索する確度閾値設定機能部を備えたことを特徴とする請求項2ないし請求項6のいずれか1項に記載の文字検索システム。 - 上記検索サーバは、上記検索にて作成されたサムネイル画像データまたは要約データの少なくともいずれか一方を巡回して上記表示手段に表示する閲覧自動巡回機能部を備えたことを特徴とする請求項2ないし請求項7のいずれか1項に記載の文字検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008078021A JP2009230658A (ja) | 2008-03-25 | 2008-03-25 | 文字検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008078021A JP2009230658A (ja) | 2008-03-25 | 2008-03-25 | 文字検索システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009230658A true JP2009230658A (ja) | 2009-10-08 |
Family
ID=41245925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008078021A Pending JP2009230658A (ja) | 2008-03-25 | 2008-03-25 | 文字検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009230658A (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02171876A (ja) * | 1988-12-23 | 1990-07-03 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識処理方式 |
JPH04104384A (ja) * | 1990-08-24 | 1992-04-06 | Canon Inc | 文字認識装置 |
JPH06223121A (ja) * | 1993-01-22 | 1994-08-12 | Nec Corp | 情報検索装置 |
JPH06290297A (ja) * | 1993-04-02 | 1994-10-18 | Sharp Corp | 文字認識装置 |
JPH1063773A (ja) * | 1996-08-13 | 1998-03-06 | Ricoh Co Ltd | 認識結果編集方法およびパターン認識システムおよび情報記録媒体 |
JP2001337993A (ja) * | 2000-05-30 | 2001-12-07 | Fujitsu Ltd | 文字認識結果を利用して情報を検索する検索装置および方法 |
JP2002351433A (ja) * | 2001-03-08 | 2002-12-06 | Konica Corp | 文字情報修正装置 |
JP2006106905A (ja) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | 文字読取装置 |
-
2008
- 2008-03-25 JP JP2008078021A patent/JP2009230658A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02171876A (ja) * | 1988-12-23 | 1990-07-03 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識処理方式 |
JPH04104384A (ja) * | 1990-08-24 | 1992-04-06 | Canon Inc | 文字認識装置 |
JPH06223121A (ja) * | 1993-01-22 | 1994-08-12 | Nec Corp | 情報検索装置 |
JPH06290297A (ja) * | 1993-04-02 | 1994-10-18 | Sharp Corp | 文字認識装置 |
JPH1063773A (ja) * | 1996-08-13 | 1998-03-06 | Ricoh Co Ltd | 認識結果編集方法およびパターン認識システムおよび情報記録媒体 |
JP2001337993A (ja) * | 2000-05-30 | 2001-12-07 | Fujitsu Ltd | 文字認識結果を利用して情報を検索する検索装置および方法 |
JP2002351433A (ja) * | 2001-03-08 | 2002-12-06 | Konica Corp | 文字情報修正装置 |
JP2006106905A (ja) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | 文字読取装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860848B2 (en) | Multi-page document recognition in document capture | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
US20160179313A1 (en) | Page-independent multi-field validation in document capture | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
US20150106701A1 (en) | Input support method and information processing system | |
US8571262B2 (en) | Methods of object search and recognition | |
JP5229102B2 (ja) | 帳票検索装置、帳票検索プログラムおよび帳票検索方法 | |
JP2005107931A (ja) | 画像検索装置 | |
US20230306767A1 (en) | Information processing apparatus, non-transitory computer readable medium, and method for processing information | |
US20110075941A1 (en) | Data managing apparatus, data managing method and information storing medium storing a data managing program | |
CN113177392B (zh) | 校对界面中行段信息同步方法、计算设备及存储介质 | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
US10331948B1 (en) | Rules based data extraction | |
JP7331551B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2009230658A (ja) | 文字検索システム | |
JP5826148B2 (ja) | 図面管理サーバ及びこれを用いた図面管理システム | |
JP5445740B2 (ja) | 画像処理装置、画像処理システムおよび処理プログラム | |
JP2008176625A (ja) | 文字認識結果の管理装置およびその方法並びにコンピュータプログラム | |
JP5169648B2 (ja) | 原画像探索装置及び原画像探索プログラム | |
JP2009181225A (ja) | Ocr装置、証跡管理装置及び証跡管理システム | |
CN111581950A (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
JP2001094711A (ja) | ドキュメント画像処理装置及びドキュメント画像処理方法 | |
US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120321 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120928 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121009 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20121214 |