JP4754889B2 - 文字列抽出方法および装置 - Google Patents
文字列抽出方法および装置 Download PDFInfo
- Publication number
- JP4754889B2 JP4754889B2 JP2005193285A JP2005193285A JP4754889B2 JP 4754889 B2 JP4754889 B2 JP 4754889B2 JP 2005193285 A JP2005193285 A JP 2005193285A JP 2005193285 A JP2005193285 A JP 2005193285A JP 4754889 B2 JP4754889 B2 JP 4754889B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- extracted
- string
- bibliographic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 9
- 238000000034 method Methods 0.000 description 21
- 239000000463 material Substances 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
Claims (4)
- 複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列とからなる文字列で構成された文書の各文字列の文字画像をイメージセンサで取得し、該文字画像を文字データに変換し、文字列抽出手段によって前記変換された文字データに基づいて目的の被抽出文字列として抽出する文字列抽出方法において、
被抽出文字列の前後の行の書誌的事項の文字列が該被抽出文字列前後の書誌的事項の文字列として、及び書誌的事項の文字列の候補文字列が辞書テーブルに予め格納され、
文字変換手段が、前記イメージセンサで取得された前記文字列の文字画像を文字データに変換し、
前記文字列抽出手段が、複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列からなる文字列から、所定事項記載の被抽出文字列を切り出し、二つの書誌的事項の文字列を取り込み、取り込まれた書誌的事項の文字列が予め格納された被抽出文字列に対する前後の書誌的事項の文字列であるかを判定し、該被抽出文字列を被抽出文字列として抽出するものであって、この際に取り込まれた書誌的事項の文字列が予め格納された書誌的事項の文字列の候補文字列と所定の認識率で一致するかを判定して一致判定された時に、前記切り出した被抽出文字列を目的の被抽出文字列として抽出すること
を特徴とする文字列抽出方法。 - 複数の行の異なる書誌的事項の文字列と書誌的事項の所定記載事項を示す被抽出文字列とからなる文字列で構成された文書の各文字列の文字画像をイメージセンサで取得し、該文字画像を文字データに変換し、文字列抽出手段によって前記変換された文字データに基づいて被抽出文字列として抽出する文字列抽出装置において、
辞書テーブルに、被抽出文字列の前後の行の書誌的事項の文字列が前後の文字列として、予め格納され、
文字変換手段が、前記イメージセンサで取得された前記文字列の文字画像を文字データに変換し、
前記文字抽出手段が、複数の行の異なる被抽出文字列から切り出した被抽出文字列を取り込むと共に二つの書誌的事項の文字列を取り込み、取り込まれた書誌的事項の文字列が予め格納された被抽出文字列に対する前後の書誌的事項の文字列であるかを判定し、該被抽出文字列を被抽出文字列として抽出するものであって、この際に取り込まれた書誌的事項の文字列が予め格納された書誌的事項の前後の文字列のそれぞれと所定の認識率で一致するかを判定して一致判定された時に、前記切り出した被抽出文字列を目的の被抽出文字列として抽出すること
を特徴とする文字列抽出装置。 - 請求項2において、前記辞書テーブルに、書誌的事項の前後の文字列候補文字列が、一部の文字を異なって構成された複数の文字列として格納され、前記文字抽出手段が、前記書誌的事項の文字列と異なって構成された候補の文字列のいずれかの文字列との一致判定を行い、1つでも一致するときには一致判定したとすることを特徴とする文字列抽出装置。
- 請求項1において、前記書誌的事項の文字列は、前記被抽出文字列の直前直後の書誌的事項の文字列であることを特徴とする文字列抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005193285A JP4754889B2 (ja) | 2005-07-01 | 2005-07-01 | 文字列抽出方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005193285A JP4754889B2 (ja) | 2005-07-01 | 2005-07-01 | 文字列抽出方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007011824A JP2007011824A (ja) | 2007-01-18 |
JP4754889B2 true JP4754889B2 (ja) | 2011-08-24 |
Family
ID=37750198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005193285A Expired - Fee Related JP4754889B2 (ja) | 2005-07-01 | 2005-07-01 | 文字列抽出方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4754889B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3452774B2 (ja) * | 1997-10-16 | 2003-09-29 | 富士通株式会社 | 文字認識方法 |
JP2000288478A (ja) * | 1999-04-06 | 2000-10-17 | Toshiba Corp | 宛先特定装置 |
JP4136282B2 (ja) * | 2000-07-05 | 2008-08-20 | キヤノン株式会社 | 画像処理装置及び画像処理方法並びに記憶媒体 |
JP4347675B2 (ja) * | 2003-12-05 | 2009-10-21 | 富士フイルム株式会社 | 帳票ocrプログラム、方法及び装置 |
-
2005
- 2005-07-01 JP JP2005193285A patent/JP4754889B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007011824A (ja) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489682B1 (en) | Optical character recognition employing deep learning with machine generated training data | |
JP2001344562A (ja) | 文書読取装置および文書読取方法 | |
JPH087033A (ja) | 情報処理方法及び装置 | |
JP2003524258A (ja) | 電子ドキュメントを処理する方法および装置 | |
KR102468975B1 (ko) | 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치 | |
JP4754889B2 (ja) | 文字列抽出方法および装置 | |
JP5091549B2 (ja) | 文書データ処理装置 | |
JPH0423185A (ja) | 自動セル属性判定機能を有する表読取装置 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP5060334B2 (ja) | 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法 | |
JP2010134766A (ja) | 文書データ処理装置およびそのプログラム | |
JPH06223121A (ja) | 情報検索装置 | |
JP3455643B2 (ja) | 文字認識装置における学習辞書の更新方法及び文字認識装置 | |
JP2655087B2 (ja) | 文字認識後処理方式 | |
JP2000090193A (ja) | 文字認識装置および項目分類方法 | |
JP2922365B2 (ja) | Ocr処理システムにおける漢字住所データ処理方法 | |
JPH04104367A (ja) | ファイルシステム | |
JPH03209564A (ja) | 文献データ登録方法 | |
JP2000132635A (ja) | 認識データ確認方法 | |
JPS63282586A (ja) | 文字認識装置 | |
JP2990734B2 (ja) | 文字認識装置の認識候補文字出力制御方法 | |
JPH06251187A (ja) | 文字認識誤り修正方法及び装置 | |
JPH11120294A (ja) | 文字認識装置および媒体 | |
JPH07271920A (ja) | 文字認識装置 | |
JP3058706B2 (ja) | 住所カナの漢字変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110526 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140603 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |