JP4544324B2 - 文書処理装置及びプログラム - Google Patents
文書処理装置及びプログラム Download PDFInfo
- Publication number
- JP4544324B2 JP4544324B2 JP2008077103A JP2008077103A JP4544324B2 JP 4544324 B2 JP4544324 B2 JP 4544324B2 JP 2008077103 A JP2008077103 A JP 2008077103A JP 2008077103 A JP2008077103 A JP 2008077103A JP 4544324 B2 JP4544324 B2 JP 4544324B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- boundary line
- blank area
- adjacent
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Digital Computer Display Output (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
- Character Input (AREA)
Description
また、空白領域bs1が残っていれば、v3を更に右側に移動させ、上述と同様の処理を繰り返してもよい。なお、空白領域の圧縮限界の条件を定めておき、その限界以上は空白領域を圧縮できないようにしてもよい。そのような条件は、例えば空白領域の下限幅(高さ)であってもよいし、元の空白領域の幅(高さ)に対する圧縮割合であってもよい。
Claims (2)
- 文書画像中に含まれる複数の領域を抽出する領域抽出手段と、
抽出された前記各領域内の文字列を認識する認識手段と、
認識された前記各領域内の文字列に対して変換処理を施す変換手段と、
互いに隣り合う領域同士の間の余白に、それら隣り合う領域同士の境界線であって、他の領域により遮られるまで延びる直線の境界線を設定する設定手段と、
設定された前記境界線のうち少なくとも1つを前記複数の領域のいずれとも交わらないという拘束条件の下で平行移動させ、その平行移動に合わせて、前記各領域を、それら境界線から構成されるセルであって当該領域を内包するセルからはみ出ない範囲で拡大又は縮小する拡大縮小手段と、
前記拡大縮小手段により拡大又は縮小された前記各領域に対して、前記変換手段による当該領域内の文字列の変換処理の結果を挿入する挿入手段と、
を備え、
前記設定手段は、隣り合う領域同士の間に第1のしきい値以上の間隔が存在する場合に、前記間隔の部分に空白領域を更に設定するとともに、前記隣り合う領域のうちの一方と前記空白領域との間、及び前記隣り合う領域のうちの他方と前記空白領域との間に境界線を設定し、
前記拡大縮小手段における前記拘束条件は、空白領域が設定されている場合、その空白領域に隣り合う境界線を前記空白領域の方向に平行移動させることを許可するものであると共に、前記空白領域に隣り合う境界線を前記空白領域の方向に平行移動させる場合に、前記空白領域に隣り合う2つの境界線同士の間隔を第2のしきい値以上とするというものであり、
前記第2のしきい値は0より大きい値である、
ことを特徴とする文書処理装置。 - コンピュータを、
文書画像中に含まれる複数の領域を抽出する領域抽出手段、
抽出された前記各領域内の文字列を認識する認識手段、
認識された前記各領域内の文字列に対して変換処理を施す変換手段、
互いに隣り合う領域同士の間の余白に、それら隣り合う領域同士の境界線であって、他の領域により遮られるまで延びる直線の境界線を設定する設定手段、
設定された前記境界線のうち少なくとも1つを前記複数の領域のいずれとも交わらないという拘束条件の下で平行移動させ、その平行移動に合わせて、前記各領域を、それら境界線から構成されるセルであって当該領域を内包するセルからはみ出ない範囲で拡大又は縮小する拡大縮小手段、
前記拡大縮小手段により拡大又は縮小された前記各領域に対して、前記変換手段による当該領域内の文字列の変換処理の結果を挿入する挿入手段、
として機能させるためのプログラムであって、
前記設定手段は、隣り合う領域同士の間に第1のしきい値以上の間隔が存在する場合に、前記間隔の部分に空白領域を更に設定するとともに、前記隣り合う領域のうちの一方と前記空白領域との間、及び前記隣り合う領域のうちの他方と前記空白領域との間に境界線を設定し、
前記拡大縮小手段における前記拘束条件は、空白領域が設定されている場合、その空白領域に隣り合う境界線を前記空白領域の方向に平行移動させることを許可するものであると共に、前記空白領域に隣り合う境界線を前記空白領域の方向に平行移動させる場合に、前記空白領域に隣り合う2つの境界線同士の間隔を第2のしきい値以上とするというものであり、
前記第2のしきい値は0より大きい値である、
ことを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008077103A JP4544324B2 (ja) | 2008-03-25 | 2008-03-25 | 文書処理装置及びプログラム |
US12/406,652 US8090202B2 (en) | 2008-03-25 | 2009-03-18 | Document processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008077103A JP4544324B2 (ja) | 2008-03-25 | 2008-03-25 | 文書処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009230605A JP2009230605A (ja) | 2009-10-08 |
JP4544324B2 true JP4544324B2 (ja) | 2010-09-15 |
Family
ID=41117308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008077103A Expired - Fee Related JP4544324B2 (ja) | 2008-03-25 | 2008-03-25 | 文書処理装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8090202B2 (ja) |
JP (1) | JP4544324B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8594422B2 (en) | 2010-03-11 | 2013-11-26 | Microsoft Corporation | Page layout determination of an image undergoing optical character recognition |
US20120102385A1 (en) * | 2010-10-25 | 2012-04-26 | Konica Minolta Systems Laboratory Inc. | Determining heights of table cells |
JP5211193B2 (ja) * | 2010-11-10 | 2013-06-12 | シャープ株式会社 | 翻訳表示装置 |
JP5884560B2 (ja) * | 2012-03-05 | 2016-03-15 | オムロン株式会社 | 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム |
CN103577314B (zh) * | 2012-07-30 | 2016-05-18 | 国际商业机器公司 | 对计算机程序进行测试的方法和设备 |
JP6148976B2 (ja) * | 2013-12-18 | 2017-06-14 | 株式会社ミマキエンジニアリング | 境界決定方法およびメディア切断方法 |
US11144777B2 (en) * | 2016-06-30 | 2021-10-12 | Rakuten Group, Inc. | Image processing apparatus, image processing method, and image processing program for clipping images included in a large image |
US11734445B2 (en) * | 2020-12-02 | 2023-08-22 | International Business Machines Corporation | Document access control based on document component layouts |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07129658A (ja) * | 1993-11-02 | 1995-05-19 | Toppan Printing Co Ltd | レイアウトデザイン装置 |
JP2005352696A (ja) * | 2004-06-09 | 2005-12-22 | Canon Inc | 画像処理装置及びその制御方法、プログラム |
JP2006268150A (ja) * | 2005-03-22 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳を行う装置、方法、プログラムおよび該プログラムを記憶した記憶媒体 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR930009639B1 (ko) * | 1989-07-09 | 1993-10-08 | 가부시끼가이샤 히다찌세이사꾸쇼 | 화상데이타를 이용하는 문서데이타 처리방법 및 장치 |
JPH05324720A (ja) | 1992-05-19 | 1993-12-07 | Ricoh Co Ltd | 対訳画像形成装置 |
JP3636490B2 (ja) | 1994-10-31 | 2005-04-06 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
JP2006268372A (ja) * | 2005-03-23 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム |
JP4757008B2 (ja) * | 2005-12-13 | 2011-08-24 | キヤノン株式会社 | 文書管理方法及び装置 |
-
2008
- 2008-03-25 JP JP2008077103A patent/JP4544324B2/ja not_active Expired - Fee Related
-
2009
- 2009-03-18 US US12/406,652 patent/US8090202B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07129658A (ja) * | 1993-11-02 | 1995-05-19 | Toppan Printing Co Ltd | レイアウトデザイン装置 |
JP2005352696A (ja) * | 2004-06-09 | 2005-12-22 | Canon Inc | 画像処理装置及びその制御方法、プログラム |
JP2006268150A (ja) * | 2005-03-22 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳を行う装置、方法、プログラムおよび該プログラムを記憶した記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20090245641A1 (en) | 2009-10-01 |
US8090202B2 (en) | 2012-01-03 |
JP2009230605A (ja) | 2009-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4544324B2 (ja) | 文書処理装置及びプログラム | |
JP3302147B2 (ja) | 文書画像処理方法 | |
JP5699570B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP3278471B2 (ja) | 領域分割方法 | |
US8824798B2 (en) | Information processing device, computer readable medium storing information processing program, and information processing method | |
JP4483909B2 (ja) | 翻訳装置及びプログラム | |
US8201084B2 (en) | Image processing apparatus and computer readable medium | |
US11042734B2 (en) | Electronic document segmentation using deep learning | |
US9633256B2 (en) | Methods and systems for efficient automated symbol recognition using multiple clusters of symbol patterns | |
JP5610781B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2020191057A (ja) | レイアウト解析方法、読書補助装置、回路及び媒体 | |
CN113205095A (zh) | 一种训练模型以及字符检测的方法及装置 | |
US8600175B2 (en) | Apparatus and method of processing image including character string | |
US20230060459A1 (en) | Image object classification optimizing method, system and computer readable medium | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2005303880A (ja) | 画像形成装置、画像形成方法およびプログラム | |
KR20090098650A (ko) | 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체 | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
CN112416340A (zh) | 基于草图的网页生成方法和系统 | |
JPH08320914A (ja) | 表認識方法および装置 | |
JP2009080727A (ja) | 翻訳装置及びプログラム | |
JP7215176B2 (ja) | 表示比較プログラム、装置、及び方法 | |
JP4107668B2 (ja) | 編集装置、編集方法、及びプログラム | |
JP6076128B2 (ja) | 文字認識装置および文字認識方法 | |
JP2000090194A (ja) | 画像処理方法および画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100621 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4544324 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140709 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |