JP5633188B2 - 移植可能な電子文書からラスタ画像を抽出する方法及び装置 - Google Patents
移植可能な電子文書からラスタ画像を抽出する方法及び装置 Download PDFInfo
- Publication number
- JP5633188B2 JP5633188B2 JP2010117428A JP2010117428A JP5633188B2 JP 5633188 B2 JP5633188 B2 JP 5633188B2 JP 2010117428 A JP2010117428 A JP 2010117428A JP 2010117428 A JP2010117428 A JP 2010117428A JP 5633188 B2 JP5633188 B2 JP 5633188B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- candidate
- raster image
- candidate raster
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
- G06K15/18—Conditioning data for presenting it to the physical printing elements
- G06K15/1801—Input data handling means
- G06K15/181—Receiving print data characterized by its formatting, e.g. particular page description languages
- G06K15/1811—Receiving print data characterized by its formatting, e.g. particular page description languages including high level document description only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
- G06K15/18—Conditioning data for presenting it to the physical printing elements
- G06K15/1801—Input data handling means
- G06K15/1822—Analysing the received data before processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K15/00—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers
- G06K15/02—Arrangements for producing a permanent visual presentation of the output data, e.g. computer output printers using printers
- G06K15/18—Conditioning data for presenting it to the physical printing elements
- G06K15/1848—Generation of the printable image
- G06K15/1852—Generation of the printable image involving combining data of different types
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0008—Connection or combination of a still picture apparatus with another apparatus
- H04N2201/0065—Converting image data to a format usable by the connected apparatus or vice versa
- H04N2201/0067—Converting to still picture data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Description
(Width < thre1 and height < thre1) or ((width < thre1 || height < thre1) && (width/height < thre2 || width/height > thre3)) (5)
Claims (12)
- 移植可能な電子文書からラスタ画像を抽出する方法であって、
前記移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する取得ステップと、
前記コマンドとリソースに対して処理を施し、複数の候補ラスタ画像を抽出する抽出ステップであって、前記コマンドにおける画像表示コマンドを判断し、前記複数の候補ラスタ画像の位置及びサイズ情報を抽出し、前記移植可能な電子文書の指定された暗号形式に基づき、前記複数の候補ラスタ画像の解読を行い、前記複数の候補ラスタ画像を候補ラスタ画像リストに保存する、抽出ステップと、
前記候補ラスタ画像リストにおける前記複数の候補ラスタ画像の位置に基づいて、前記複数の候補ラスタ画像のうち、接続されているものを統合し、接続されていないものを第2候補ラスタ画像リストに追加する統合ステップと、
偽ラスタ画像を除去する除去ステップと、
を含む方法。 - 前記取得ステップは、
前記移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得するステップと、
ページごとのコンテンツストリームを解読し、コマンド集合を取得するステップと、
前記コマンド集合からラスタ画像に関するコマンドを抽出するステップと、
ラスタ画像に関するリソースを抽出するステップと、
を含む請求項1に記載の方法。 - 前記抽出ステップは、
抽出した前記複数の候補ラスタ画像の各々は、それぞれ異なる候補ラスタ画像リストに保存されるImageXObject画像と、インライン(Inline)画像と、を含む請求項1に記載の方法。 - 前記統合ステップは、
前記複数の候補ラスタ画像が保存されている前記候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う第一ステップと、
前記候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重複領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、接続されている候補ラスタ画像を統合する第二ステップと、
統合後の候補ラスタ画像と前記候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対して、前記第二ステップの動作を繰り返す第三ステップと、
前記1つ下の候補ラスタ画像と接続されていないと判断された候補ラスタ画像を接続されていない候補ラスタ画像と判断し、前記第2候補ラスタ画像リストに追加する第四ステップと、
を含む請求項1に記載の方法。 - 前記第二ステップは、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項4に記載の方法。
- 前記除去ステップは、文書のページサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項1に記載の方法。
- 移植可能な電子文書からラスタ画像を抽出する装置であって、
前記移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、
前記コマンドとリソースに対して処理を施し、複数の候補ラスタ画像を抽出する候補ラスタ画像抽出装置であって、前記コマンドにおける画像表示コマンドを判断し、前記複数の候補ラスタ画像の位置及びサイズ情報を抽出し、前記移植可能な電子文書の指定された暗号形式に基づき、前記複数の候補ラスタ画像の解読を行い、前記複数の候補ラスタ画像を候補ラスタ画像リストに保存する、候補ラスタ画像抽出装置と、
前記候補ラスタ画像リストにおける前記複数の候補ラスタ画像の位置に基づいて、前記複数の候補ラスタ画像のうち、接続されているものを統合し、接続されていないものを第2候補ラスタ画像リストに追加するラスタ画像統合装置と、
偽ラスタ画像を除去する偽ラスタ画像除去装置と、
を含む装置。 - 前記文書解析装置は、
前記移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する取得装置と、
ページごとのコンテンツストリームを解読し、コマンド集合を取得する解読装置と、
前記コマンド集合からラスタ画像に関するコマンドを抽出するコマンド抽出装置と、
ラスタ画像に関するリソースを抽出するリソース抽出装置と、
を含む請求項7に記載の装置。 - 前記候補ラスタ画像抽出装置により抽出された前記複数の候補ラスタ画像の各々は、ImageXObject画像とインライン画像を含み、該ImageXObject画像とインライン画像は、それぞれ異なる候補ラスタ画像リストに保存される請求項7に記載の装置。
- 前記ラスタ画像統合装置は、
前記複数の候補ラスタ画像が保存されている前記候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う配列装置と、
前記候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重畳領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、かつ、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対し、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば統合を行う判断装置と、
前記1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を接続されていない候補ラスタ画像と判断し、前記第2候補ラスタ画像リストに追加する追加装置と、
を含む請求項7に記載の装置。 - 前記接続されている候補ラスタ画像の統合は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項10に記載の装置。
- 前記偽ラスタ画像除去装置は、文書のページのサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項7に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910141741.0 | 2009-05-25 | ||
CN200910141741.0A CN101901341B (zh) | 2009-05-25 | 2009-05-25 | 从可移植电子文档中提取光栅图像的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010272117A JP2010272117A (ja) | 2010-12-02 |
JP5633188B2 true JP5633188B2 (ja) | 2014-12-03 |
Family
ID=43125353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010117428A Expired - Fee Related JP5633188B2 (ja) | 2009-05-25 | 2010-05-21 | 移植可能な電子文書からラスタ画像を抽出する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8559725B2 (ja) |
JP (1) | JP5633188B2 (ja) |
CN (1) | CN101901341B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8830513B2 (en) * | 2012-10-12 | 2014-09-09 | Esko Software Bvba | Method and apparatus for optimizing a destination variable document from a source variable document having recurring and variable content |
US10290287B1 (en) * | 2014-07-01 | 2019-05-14 | Xilinx, Inc. | Visualizing operation of a memory controller |
US10185903B2 (en) | 2016-10-06 | 2019-01-22 | Ricoh Company, Ltd. | Image forming output control device and non-transitory recording medium storing program |
CN112597422A (zh) * | 2020-12-30 | 2021-04-02 | 深圳市世强元件网络有限公司 | 一种pdf文件分割方法和网页中pdf文件加载方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69525401T2 (de) * | 1994-09-12 | 2002-11-21 | Adobe Systems, Inc. | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind |
US7072061B2 (en) * | 2001-02-13 | 2006-07-04 | Ariba, Inc. | Method and system for extracting information from RFQ documents and compressing RFQ files into a common RFQ file type |
US6801673B2 (en) * | 2001-10-09 | 2004-10-05 | Hewlett-Packard Development Company, L.P. | Section extraction tool for PDF documents |
JP2003346146A (ja) * | 2002-05-23 | 2003-12-05 | Kansai Electric Power Co Inc:The | 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置 |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
DE102006025928A1 (de) * | 2006-06-02 | 2007-12-06 | Siemens Ag | Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente |
US8711372B2 (en) * | 2006-08-31 | 2014-04-29 | Ricoh Co., Ltd. | Techniques for image segment accumulation in document rendering |
JP2010034683A (ja) * | 2008-07-25 | 2010-02-12 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
-
2009
- 2009-05-25 CN CN200910141741.0A patent/CN101901341B/zh not_active Expired - Fee Related
-
2010
- 2010-05-21 US US12/785,004 patent/US8559725B2/en active Active
- 2010-05-21 JP JP2010117428A patent/JP5633188B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20100299535A1 (en) | 2010-11-25 |
CN101901341B (zh) | 2013-10-23 |
US8559725B2 (en) | 2013-10-15 |
JP2010272117A (ja) | 2010-12-02 |
CN101901341A (zh) | 2010-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
JP5664174B2 (ja) | 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 | |
US20150228045A1 (en) | Methods for embedding and extracting a watermark in a text document and devices thereof | |
US20110221766A1 (en) | Method for printing a captured screen of web pages | |
US9436882B2 (en) | Automated redaction | |
KR20110124255A (ko) | 클라이언트 디바이스상의 간행물로부터 광학 문자 인식된 텍스트 및 대응하는 이미지의 선택적인 디스플레이 | |
US20080144062A1 (en) | Document processing method and document processing apparatus | |
JP2010009509A (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
JP5633188B2 (ja) | 移植可能な電子文書からラスタ画像を抽出する方法及び装置 | |
US20130136360A1 (en) | Image processing apparatus, image processing method, and computer readable medium | |
JP2009087270A (ja) | 画像処理装置及びプログラム | |
US8331736B2 (en) | Image processing device and method therefor | |
US9019552B2 (en) | Information processing apparatus, system and method for outputting data to a medium | |
JP5880089B2 (ja) | コミック画像データ検出装置及びコミック画像データ検出プログラム | |
US20150128027A1 (en) | Preparation of textual content | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP2010097262A (ja) | データベース生成装置、データベース生成方法及びコンピュータプログラム | |
US9075776B2 (en) | Document processing apparatus, document processing method, and program | |
JP2006279090A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP2014044555A (ja) | 画像処理装置、画像処理システム及びプログラム | |
JP5414615B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2009157470A (ja) | 電子文書処理装置及びプログラム | |
WO2021117128A1 (ja) | 帳票画像処理システム | |
JP2010262578A (ja) | 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム | |
JP2009053826A (ja) | 文書処理装置及び文書処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140916 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140929 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5633188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |