JP4213558B2 - 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 - Google Patents
文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 Download PDFInfo
- Publication number
- JP4213558B2 JP4213558B2 JP2003357941A JP2003357941A JP4213558B2 JP 4213558 B2 JP4213558 B2 JP 4213558B2 JP 2003357941 A JP2003357941 A JP 2003357941A JP 2003357941 A JP2003357941 A JP 2003357941A JP 4213558 B2 JP4213558 B2 JP 4213558B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- characters
- character string
- document
- circumscribed rectangle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
Description
前記文書画像中の各文字に係る情報を取得し、取得した各文字に係る情報に基づいて該文書画像中の文字列を検出する文字列検出手順と、
前記文字列検出手順により検出した文字列に対し文字列レイアウト解析をおこなう文字列レイアウト解析手順と、
前記文字列レイアウト解析手順による解析結果に基づき、文字列レイアウトを再設定することにより文字列レイアウトを補正するレイアウト補正手順と、
をコンピュータに実行させることを特徴とする文書レイアウト解析プログラム。
前記文書画像中の各文字に係る情報を取得し、取得した各文字に係る情報に基づいて該文書画像中の文字列を検出する文字列検出手順と、
前記文字列検出手順により検出された文字列に含まれる文字を1つずつ選択し、該文字列を囲む文字列矩形の所定の角を一角とし、かつ、選択された文字を囲む文字矩形を含む第1の矩形検査領域内に、当該文字の番号よりも順序が後ろの番号の文字が含まれないように各文字に番号を付与する文字番号付与手順と、
前記文字番号付与手順により付与された番号順に各文字を1つずつ追加して文字列を設定し、該文字列にすでに追加されている文字と新たに追加した文字とを含む第2の矩形検査領域内に該文字列にすでに追加されている文字および新たに追加した文字以外の文字が含まれた場合に、新たに追加した文字を除外するとともにすでに追加されている文字を連結して1つの文字列として再設定し、文字列のレイアウトを補正するレイアウト補正手順と、
をコンピュータに実行させることを特徴とする文書レイアウト解析プログラム。
前記文書画像中の各文字に係る情報を取得し、取得した各文字に係る情報に基づいて該文書画像中の文字列を検出する文字列検出手順と、
前記文字列検出手順により検出された文字列に含まれる文字を1つずつ選択し、該文字列を囲む文字列矩形の所定の角を一角とし、かつ、選択された文字を囲む文字矩形を含む第1の矩形検査領域内に、当該文字の番号よりも順序が後ろの番号の文字が含まれないように各文字に番号を付与する文字番号付与手順と、
前記文字番号付与手順により付与された番号順に各文字を1つずつ追加して文字列を設定し、該文字列にすでに追加されている文字と新たに追加した文字とを含む第2の矩形検査領域内に該文字列にすでに追加されている文字および新たに追加した文字以外の文字が含まれた場合に、新たに追加した文字を除外するとともにすでに追加されている文字を連結して1つの文字列として再設定し、文字列のレイアウトを補正するレイアウト補正手順と、
をコンピュータに実行させるための文書レイアウト解析プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
前記文書画像中の各文字に係る情報を取得し、取得した各文字に係る情報に基づいて該文書画像中の文字列を検出する文字列検出工程と、
前記文字列検出工程により検出された文字列に含まれる文字を1つずつ選択し、該文字列を囲む文字列矩形の所定の角を一角とし、かつ、選択された文字を囲む文字矩形を含む第1の矩形検査領域内に、当該文字の番号よりも順序が後ろの番号の文字が含まれないように各文字に番号を付与する文字番号付与工程と、
前記文字番号付与工程により付与された番号順に各文字を1つずつ追加して文字列を設定し、該文字列にすでに追加されている文字と新たに追加した文字とを含む第2の矩形検査領域内に該文字列にすでに追加されている文字および新たに追加した文字以外の文字が含まれた場合に、新たに追加した文字を除外するとともにすでに追加されている文字を連結して1つの文字列として再設定し、文字列のレイアウトを補正するレイアウト補正工程と、
を含んだことを特徴とする文書レイアウト解析方法。
前記文書画像中の各文字に係る情報を取得し、取得した各文字に係る情報に基づいて該文書画像中の文字列を検出する文字列検出手段と、
前記文字列検出手段により検出された文字列に含まれる文字を1つずつ選択し、該文字列を囲む文字列矩形の所定の角を一角とし、かつ、選択された文字を囲む文字矩形を含む第1の矩形検査領域内に、当該文字の番号よりも順序が後ろの番号の文字が含まれないように各文字に番号を付与する文字番号付与手段と、
前記文字番号付与手段により付与された番号順に各文字を1つずつ追加して文字列を設定し、該文字列にすでに追加されている文字と新たに追加した文字とを含む第2の矩形検査領域内に該文字列にすでに追加されている文字および新たに追加した文字以外の文字が含まれた場合に、新たに追加した文字を除外するとともにすでに追加されている文字を連結して1つの文字列として再設定し、文字列のレイアウトを補正するレイアウト補正手段と、
を備えたことを特徴とする文書レイアウト解析装置。
11 原点
12、13、80〜83、100〜103 矩形検査領域
14a〜14d 補正後の文字列
15a〜15d 補正後の文字列レイアウト
20 入力部
21 表示部
22 記憶部
22a 電子文書データ
22b 文字データ
22c レイアウトデータ
23 制御部
23a 文字列検出部
23b 文字番号付与部
23c レイアウト補正部
23d 文書編集処理部
30、31 文字領域
32 重複部分
33 重複部分の重心
40〜43 分割文字領域
Claims (4)
- 文書画像から文字列のレイアウトに係る情報を取得する文書レイアウト解析プログラムであって、
前記文書画像の所定の領域の中にある各文字に対して、それぞれの文字の外接矩形の座標順に第1の番号を付与する第1の番号付与手順と、
前記各文字に対して第2の番号を付与する第2の番号付与手順と、
前記各文字を1乃至複数の文字列として認識する文字列認識手順と
をコンピュータに実行させ、
前記第2の番号付与手順は、前記第2の番号を付与が付与されていない文字であって、当該の文字の外接矩形を含み、かつ、前記領域の所定の角を1角とする外接矩形領域が、前記第2の番号を付与されていない他の文字を含まない文字のうち、前記第1の番号として最も小さい番号を付与されている文字から順に第2の番号を付与し、
前記文字列認識手順は、付与されている前記第2の番号が小さい順に文字を連結していき、連結された全ての文字を含む外接矩形領域が、連結されていない他の文字の外接矩形と重複する場合に、前記連結された全ての文字から最後に連結された文字を除外した文字を文字列と認識することを特徴とする文書レイアウト解析プログラム。 - 文書画像から文字列のレイアウトに係る情報を取得する文書レイアウト解析プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記文書画像の所定の領域の中にある各文字に対して、それぞれの文字の外接矩形の座標順に第1の番号を付与する第1の番号付与手順と、
前記各文字に対して第2の番号を付与する第2の番号付与手順と、
前記各文字を1乃至複数の文字列として認識する文字列認識手順と
をコンピュータに実行させるための文書レイアウト解析プログラムを記録し、
前記第2の番号付与手順は、前記第2の番号を付与が付与されていない文字であって、当該の文字の外接矩形を含み、かつ、前記領域の所定の角を1角とする外接矩形領域が、前記第2の番号を付与されていない他の文字を含まない文字のうち、前記第1の番号として最も小さい番号を付与されている文字から順に第2の番号を付与し、
前記文字列認識手順は、付与されている前記第2の番号が小さい順に文字を連結していき、連結された全ての文字を含む外接矩形領域が、連結されていない他の文字の外接矩形と重複する場合に、前記連結された全ての文字から最後に連結された文字を除外した文字を文字列と認識することを特徴とする記録媒体。 - 文書画像から文字列のレイアウトに係る情報を取得する文書レイアウト解析方法であって、
前記文書画像の所定の領域の中にある各文字に対して、それぞれの文字の外接矩形の座標順に第1の番号を付与する第1の番号付与工程と、
前記各文字に対して第2の番号を付与する第2の番号付与工程と、
前記各文字を1乃至複数の文字列として認識する文字列認識工程と
を含み、
前記第2の番号付与工程は、前記第2の番号を付与が付与されていない文字であって、当該の文字の外接矩形を含み、かつ、前記領域の所定の角を1角とする外接矩形領域が、前記第2の番号を付与されていない他の文字を含まない文字のうち、前記第1の番号として最も小さい番号を付与されている文字から順に第2の番号を付与し、
前記文字列認識工程は、付与されている前記第2の番号が小さい順に文字を連結していき、連結された全ての文字を含む外接矩形領域が、連結されていない他の文字の外接矩形と重複する場合に、前記連結された全ての文字から最後に連結された文字を除外した文字を文字列と認識することを特徴とする文書レイアウト解析方法。 - 文書画像から文字列のレイアウトに係る情報を取得する文書レイアウト解析装置であって、
前記文書画像の所定の領域の中にある各文字に対して、それぞれの文字の外接矩形の座標順に第1の番号を付与する第1の番号付与手段と、
前記各文字に対して第2の番号を付与する第2の番号付与手段と、
前記各文字を1乃至複数の文字列として認識する文字列認識手段と
を備え、
前記第2の番号付与手段は、前記第2の番号を付与が付与されていない文字であって、当該の文字の外接矩形を含み、かつ、前記領域の所定の角を1角とする外接矩形領域が、前記第2の番号を付与されていない他の文字を含まない文字のうち、前記第1の番号として最も小さい番号を付与されている文字から順に第2の番号を付与し、
前記文字列認識手段は、付与されている前記第2の番号が小さい順に文字を連結していき、連結された全ての文字を含む外接矩形領域が、連結されていない他の文字の外接矩形と重複する場合に、前記連結された全ての文字から最後に連結された文字を除外した文字を文字列と認識することを特徴とする文書レイアウト解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003357941A JP4213558B2 (ja) | 2003-10-17 | 2003-10-17 | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003357941A JP4213558B2 (ja) | 2003-10-17 | 2003-10-17 | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005122543A JP2005122543A (ja) | 2005-05-12 |
JP4213558B2 true JP4213558B2 (ja) | 2009-01-21 |
Family
ID=34614687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003357941A Expired - Fee Related JP4213558B2 (ja) | 2003-10-17 | 2003-10-17 | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4213558B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201001303A (en) * | 2008-06-27 | 2010-01-01 | Univ Nat Taiwan Science Tech | System and method for recognizing document immediately |
JP5712487B2 (ja) | 2009-09-04 | 2015-05-07 | 株式会社リコー | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
JP5812702B2 (ja) * | 2011-06-08 | 2015-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文字の読み順を決定するための読み順決定装置、方法及びプログラム |
-
2003
- 2003-10-17 JP JP2003357941A patent/JP4213558B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005122543A (ja) | 2005-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP3822277B2 (ja) | 文字テンプレートセット学習マシン動作方法 | |
JP3425408B2 (ja) | 文書読取装置 | |
JP6590355B1 (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
JP4998220B2 (ja) | 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 | |
KR100570224B1 (ko) | 전표정의데이터 작성방법 및 전표처리장치 | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
JP2021043478A (ja) | 情報処理装置、その制御方法及びプログラム | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JP4213558B2 (ja) | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
US20170249299A1 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
JPH11328306A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 | |
JP5712415B2 (ja) | 帳票処理システム及び帳票処理方法 | |
JP2009087378A (ja) | 帳票処理装置 | |
JP4521377B2 (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
JP4646300B2 (ja) | 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050413 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081030 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4213558 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |