JP2010272117A - 移植可能な電子文書からラスタ画像を抽出する方法及び装置 - Google Patents
移植可能な電子文書からラスタ画像を抽出する方法及び装置 Download PDFInfo
- Publication number
- JP2010272117A JP2010272117A JP2010117428A JP2010117428A JP2010272117A JP 2010272117 A JP2010272117 A JP 2010272117A JP 2010117428 A JP2010117428 A JP 2010117428A JP 2010117428 A JP2010117428 A JP 2010117428A JP 2010272117 A JP2010272117 A JP 2010272117A
- Authority
- JP
- Japan
- Prior art keywords
- image
- candidate
- raster image
- raster
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
- G06K15/18—Conditioning data for presenting it to the physical printing elements
- G06K15/1801—Input data handling means
- G06K15/181—Receiving print data characterized by its formatting, e.g. particular page description languages
- G06K15/1811—Receiving print data characterized by its formatting, e.g. particular page description languages including high level document description only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
- G06K15/18—Conditioning data for presenting it to the physical printing elements
- G06K15/1801—Input data handling means
- G06K15/1822—Analysing the received data before processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
- G06K15/18—Conditioning data for presenting it to the physical printing elements
- G06K15/1848—Generation of the printable image
- G06K15/1852—Generation of the printable image involving combining data of different types
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0008—Connection or combination of a still picture apparatus with another apparatus
- H04N2201/0065—Converting image data to a format usable by the connected apparatus or vice versa
- H04N2201/0067—Converting to still picture data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
【解決手段】本発明による移植可能な電子文書からラスタ画像を抽出する方法は、a)移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、b)前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出するステップと、c)接続されている候補ラスタ画像を統合するステップと、d)偽ラスタ画像を除去するステップと、を含む。これにより、インラインラスタ画像であっても、ImageXObjectラスタ画像であっても抽出することができ、かつ、視覚上完全なラスタ画像を、完全な画像として抽出し、非感知意味上のコンテンツとしての細長い罫線を除去することができる。
【選択図】図2
Description
(Width < thre1 and height < thre1) or ((width < thre1 || height < thre1) && (width/height < thre2 || width/height > thre3)) (5)
Claims (14)
- 移植可能な電子文書からラスタ画像を抽出する方法であって、
a)移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、
b)前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出するステップと、
c)接続されている候補ラスタ画像を統合するステップと、
d)偽ラスタ画像を除去するステップと、
を含む方法。 - 前記ステップa)は、
a1)移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得するステップと、
a2)ページごとのコンテンツストリームを解読し、コマンド集合を取得するステップと、
a3)前記コマンド集合からラスタ画像に関するコマンドを抽出するステップと、
a4)ラスタ画像に関するリソースを抽出するステップと、
を含む請求項1に記載の方法。 - 前記ステップb)は、
前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像のリストに保存することを含む請求項1に記載の方法。 - 前記ステップb)において、
抽出した候補ラスタ画像は、それぞれ異なる候補ラスタ画像リストに保存されるImageXObject画像と、インライン(Inline)画像と、を含む請求項1に記載の方法。 - 前記ステップc)は、
c1)候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行うステップと、
c2)候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重複領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、接続されている候補ラスタ画像を統合するステップと、
c3)統合後の候補ラスタ画像と候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対して、ステップc2)の動作を繰り返すステップと、
c4)1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第2候補ラスタ画像リストに追加するステップと、
を含む請求項1に記載の方法。 - 前記接続されている候補ラスタ画像を統合する工程は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項5に記載の方法。
- ステップd)において、文書のページサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項1に記載の方法。
- 移植可能な電子文書からラスタ画像を抽出する装置であって、
移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、
前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出する候補ラスタ画像抽出装置と、
接続されている候補ラスタ画像を統合するラスタ画像統合装置と、
偽ラスタ画像を除去する偽ラスタ画像除去装置と、
を含む装置。 - 前記文書解析装置は、
移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する取得装置と、
ページごとのコンテンツストリームを解読し、コマンド集合を取得する解読装置と、
前記コマンド集合からラスタ画像に関するコマンドを抽出するコマンド抽出装置と、
ラスタ画像に関するリソースを抽出するリソース抽出装置と、
を含む請求項8に記載の装置。 - 前記候補ラスタ画像抽出装置は、前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像のリストに保存する請求項8に記載の装置。
- 前記候補ラスタ画像抽出装置により抽出された候補ラスタ画像は、ImageXObject画像とインライン画像を含み、該ImageXObject画像とインライン画像は、それぞれ異なる候補ラスタ画像リストに保存される請求項8に記載の装置。
- 前記ラスタ画像統合装置は、
候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う配列装置と、
候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重畳領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、かつ、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対し、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば統合を行う判断装置と、
1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第2候補ラスタ画像リストに追加する追加装置と、
を含む請求項8に記載の装置。 - 前記接続されている候補ラスタ画像の統合は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項12に記載の装置。
- 前記偽ラスタ画像除去装置は、文書のページのサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項8に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910141741.0A CN101901341B (zh) | 2009-05-25 | 2009-05-25 | 从可移植电子文档中提取光栅图像的方法和设备 |
CN200910141741.0 | 2009-05-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010272117A true JP2010272117A (ja) | 2010-12-02 |
JP5633188B2 JP5633188B2 (ja) | 2014-12-03 |
Family
ID=43125353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010117428A Expired - Fee Related JP5633188B2 (ja) | 2009-05-25 | 2010-05-21 | 移植可能な電子文書からラスタ画像を抽出する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8559725B2 (ja) |
JP (1) | JP5633188B2 (ja) |
CN (1) | CN101901341B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10185903B2 (en) | 2016-10-06 | 2019-01-22 | Ricoh Company, Ltd. | Image forming output control device and non-transitory recording medium storing program |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8830513B2 (en) * | 2012-10-12 | 2014-09-09 | Esko Software Bvba | Method and apparatus for optimizing a destination variable document from a source variable document having recurring and variable content |
US10290287B1 (en) * | 2014-07-01 | 2019-05-14 | Xilinx, Inc. | Visualizing operation of a memory controller |
CN112597422A (zh) * | 2020-12-30 | 2021-04-02 | 深圳市世强元件网络有限公司 | 一种pdf文件分割方法和网页中pdf文件加载方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003346146A (ja) * | 2002-05-23 | 2003-12-05 | Kansai Electric Power Co Inc:The | 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69525401T2 (de) | 1994-09-12 | 2002-11-21 | Adobe Systems Inc | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind |
US7072061B2 (en) * | 2001-02-13 | 2006-07-04 | Ariba, Inc. | Method and system for extracting information from RFQ documents and compressing RFQ files into a common RFQ file type |
US6801673B2 (en) * | 2001-10-09 | 2004-10-05 | Hewlett-Packard Development Company, L.P. | Section extraction tool for PDF documents |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
DE102006025928A1 (de) * | 2006-06-02 | 2007-12-06 | Siemens Ag | Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente |
US8711372B2 (en) * | 2006-08-31 | 2014-04-29 | Ricoh Co., Ltd. | Techniques for image segment accumulation in document rendering |
JP2010034683A (ja) * | 2008-07-25 | 2010-02-12 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
-
2009
- 2009-05-25 CN CN200910141741.0A patent/CN101901341B/zh not_active Expired - Fee Related
-
2010
- 2010-05-21 JP JP2010117428A patent/JP5633188B2/ja not_active Expired - Fee Related
- 2010-05-21 US US12/785,004 patent/US8559725B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003346146A (ja) * | 2002-05-23 | 2003-12-05 | Kansai Electric Power Co Inc:The | 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10185903B2 (en) | 2016-10-06 | 2019-01-22 | Ricoh Company, Ltd. | Image forming output control device and non-transitory recording medium storing program |
Also Published As
Publication number | Publication date |
---|---|
CN101901341B (zh) | 2013-10-23 |
US20100299535A1 (en) | 2010-11-25 |
US8559725B2 (en) | 2013-10-15 |
CN101901341A (zh) | 2010-12-01 |
JP5633188B2 (ja) | 2014-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5664174B2 (ja) | 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 | |
US20150228045A1 (en) | Methods for embedding and extracting a watermark in a text document and devices thereof | |
US9436882B2 (en) | Automated redaction | |
US10372827B2 (en) | Translating phrases from image data on a GUI | |
JP2005512185A (ja) | マルチページsvg文書用ディレクトリ | |
JP2010009509A (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
JP5633188B2 (ja) | 移植可能な電子文書からラスタ画像を抽出する方法及び装置 | |
US20130136360A1 (en) | Image processing apparatus, image processing method, and computer readable medium | |
US20150169508A1 (en) | Obfuscating page-description language output to thwart conversion to an editable format | |
US9864750B2 (en) | Objectification with deep searchability | |
JP2009087270A (ja) | 画像処理装置及びプログラム | |
JP5111242B2 (ja) | 画像処理装置及び方法 | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
US9075776B2 (en) | Document processing apparatus, document processing method, and program | |
JP2010097262A (ja) | データベース生成装置、データベース生成方法及びコンピュータプログラム | |
JP6074893B2 (ja) | 情報処理装置及びプログラム | |
JP2006279090A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP5414615B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2010092426A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2009157470A (ja) | 電子文書処理装置及びプログラム | |
JP2010262578A (ja) | 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム | |
JP2011096109A (ja) | 画像処理装置および画像処理プログラム | |
JP2009053826A (ja) | 文書処理装置及び文書処理プログラム | |
WO2021117128A1 (ja) | 帳票画像処理システム | |
JP6119140B2 (ja) | 画像処理装置、画像処置方法及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140916 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140929 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5633188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |