JP5664174B2 - 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 - Google Patents

持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 Download PDF

Info

Publication number
JP5664174B2
JP5664174B2 JP2010263936A JP2010263936A JP5664174B2 JP 5664174 B2 JP5664174 B2 JP 5664174B2 JP 2010263936 A JP2010263936 A JP 2010263936A JP 2010263936 A JP2010263936 A JP 2010263936A JP 5664174 B2 JP5664174 B2 JP 5664174B2
Authority
JP
Japan
Prior art keywords
font
character
replaced
resource
text fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010263936A
Other languages
English (en)
Other versions
JP2011113569A (ja
Inventor
シュイ ウエヌホォイ
シュイ ウエヌホォイ
ドゥ チョン
ドゥ チョン
長谷川 史裕
史裕 長谷川
井上 浩一
浩一 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2011113569A publication Critical patent/JP2011113569A/ja
Application granted granted Critical
Publication of JP5664174B2 publication Critical patent/JP5664174B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

本発明は、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法に関し、具体的には、フォントの置換が必要な場合の持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法に関する。
PDF(Portable Document Format)やPS(PostScript)のような持ち運び可能な電子ファイルは、日常の事務作業で幅広く用いられている。しかし、持ち運び可能な電子ファイルからの特定の情報の抽出は、やはり容易な作業ではない。例えば、Adobe Acrobatは、PDFファイルからキャラクタの外接矩形を抽出することができるが、抽出結果が好ましくない場合があり、その原因として、PDFファイルにおけるあるフォントが使用不可、即ち、字形度量情報が乏しい場合、該フォントのキャラクタの外接矩形が抽出不可となることが考えられる。
既存のフォント置換の計算方法は、主にキャラクタの格子化に注目し、視覚上類似するフォントを検索している。しかし、このような計算方法は、キャラクタの外接矩形の抽出に適用できない。キャラクタの外接矩形の抽出は、視覚上類似するフォントではなく、字形度量上類似するフォントを検索する必要がある。
特許文献1には、PDFファイルからの単語の抽出方法が開示されている。該方法は、テキスト断片における単語分離キャラクタ(スペース)を検出することにより単語の抽出を行い、又は、隣接するテキスト断片の間の距離を判断し、該距離が一定の閾値を越えると、隣接するテキスト断片が2つの単語に分割されることにより単語の抽出を行う。該方法において、入力はPDFファイであり、出力は該文書に含まれる単語の集合である。
特許文献2には、コンピュータに用いられるフォント置換方法が開示されている。該方法は、主に置換すべきフォントと視覚上類似するフォントを検索し、その目的は、キャラクタの格子化を行うためである。該方法は、先ず、フォントリストから類似する1つのフォントを検索した後に、キャラクタの視覚上の変化がないようにフォント全体の幅を調整する。類似するフォントの選択は、フォントの視覚上の類似性により採点を行うが、字形度量上の類似性を考慮していない。キャラクタの外接矩形の抽出に関しては、視覚上類似するフォントではなく、字形度量上類似するフォントを検索する必要があるため、該方法によるフォント置換方法は、キャラクタの外接矩形の抽出に何ら効果もない。
本発明は、従来技術の前述のような問題を解決するためになされたものであり、持ち運び可能な電子ファイルのあるフォントに字形度量情報が足りない場合、フォントの置換により、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法を提供する。キャラクタの外接矩形は、キャラクタの最小外接矩形ともいう。本発明は、文書処理の分野に属し、文書コンテンツの抽出、文書の再利用及び文書の検索に用いることができる。
本発明の1つの側面によると、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置が提供される。この装置は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出装置と、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割装置と、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換装置と、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出装置と、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出装置と、を備える。
本発明の他の側面によると、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する方法が提供される。この方法は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出ステップと、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割ステップと、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換ステップと、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出ステップと、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出ステップと、を有する。
本発明によれば、PDFやPSのような持ち運び可能な電子ファイルからキャラクタの最小外接矩形を抽出することができ、抽出したキャラクタの外接矩形は、文書の再利用や文書の検索等に用いることができる。例えば、キャラクタの外接矩形の幾何分布の関係を比較することにより、電子ファイルと文書画像とをマッチングさせ、文書検索を行うことができる。
本発明の実施例による、持ち運び可能な電子ファイルからキャラクタの外接矩形の抽出を行うコンピュータシステムを示す図である。 本発明の実施列による、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置全体のブロック図である。 キャラクタ「g」の字形度量情報を示す図である。 キャラクタの外接矩形の抽出効果の比較を示す図であり、左側は無料ソフトウェアsumatrapdfのフォント置換方法によるキャラクタの外接矩形の抽出効果を示し、右側は本発明の実施例によるキャラクタの外接矩形の抽出効果を示す。
図1に示すように、本発明の実施例における、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出できるコンピュータシステム10は、コンピュータ11と、キーボード16と、モニター17と、プリンタ18、フロッピディスクドライブ19と、ネットワーク接続器20と、ハードディスクドライブ21とを含む。コンピュータ11は、データバス12と、RAM13と、ROM14と、CPU15と、周辺機器バス22を備える。
CPU15は、RAM13からのコマンドにより、入力データの受信と処理、及び、モニター17や他の周辺機器への出力を制御する。本実施例において、CPU15は、入力されたPDFファイルへの処理を行い、該ファイルに含まれているキャラクタの最小外接矩形の抽出を行う機能をする。抽出した外接矩形は、CPU15における他のアプリケーションに用いられてもよい。
CPU15は、データバス12により、RAM13とROM14へのアクセスを行う。RAM13は、読み取り・書き込み可能なメモリとして用いられ、各プロセスのワークエリアと可変データ記憶領域として用いられる。ROM14には、PDFのような持ち運び可能な電子ファイル、キャラクタの最小外接矩形の抽出プログラム、及び、抽出したキャラクタの最小外接矩形を利用する他のアプリケーションが保存される。
周辺機器バス22は、コンピュータ11に接続されている入力装置、出力装置、及び記憶装置等の周辺機器へのアクセスに用いられる。本実施例において、前記周辺機器は、モニター17と、プリンタ18と、フロッピディスクドライブ19と、ネットワーク接続器20と、ハードディスクドライブ21を備える。モニター17は、周辺機器バス22により、CPU15からの出力データと画像を表示する。モニター17は、CRTやLCDディスプレイ等のようなグリッド(格子)形式の表示装置であって良い。プリンタ18は、CPU15からの入力データと画像を紙や紙のような媒体に印刷する。コンピュータシステム10は、モニター17やプリンタ18等の出力装置にPDFファイルを表示するために、文書の格子化を行い、PDFファイルからその対応画像の表示変換を行う必要がある。他の実施例において、プリンタ18のような出力装置には、CPUやCPUのようなプロセッサが設けられ、類似のPDFファイルから画像への変換を行ってもよい。フロッピディスクドライブ19とハードディスクドライブ21は、PDFファイルの保存に用いられる。フロッピディスクドライブ19により、異なるコンピュータシステム間のPDFファイルの転送が可能となる。ハードディスク21は、より大きな記憶スペースと、より速いアクセス速度を有する。他の記憶装置、例えば、フラッシュメモリは、PDFファイルの保存やコンピュータシステム10のアクセスに用いられてもよい。コンピュータシステム10は、ネットワーク接続器20により、ネットワーク上でデータの送信と他のコンピュータシステムからのデータの受信を行う。ユーザは、キーボード16により、コマンドをコンピュータシステム10に入力することができる。
図2は、本発明の実施例における、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置全体のブロック図である。該持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出装置100と、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割装置200と、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換
装置300と、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出装置400と、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出装置500と、を備える。
持ち運び可能な電子ファイルは、PDF形式のファイルでもよく、PSのような他の形式の持ち運び可能な電子ファイルでもよい。
キャラクタの外接矩形の抽出は、2種類のフォント情報、即ち、キャラクタ符号リストと字形度量リストが必要となる。キャラクタ符号リストは、キャラクタ符号とキャラクタ名称との対応関係を示し、例えば、キャラクタ符号65に対し、対応のキャラクタ名称は、「A」である。PDFは、異なる種類のフォント符号化方法を用いるため、各種フォントに対応する符号形式を判断する必要がある。字形度量リストは、キャラクタ名称と字形度量情報の対応関係を反映する。
図3は、キャラクタ「g」の字形度量情報を例示的に示す図である。図3に示すように、字形度量情報は、字形の幅、高さ、x方向の最大値と最小値、y方向の最大値と最小値、及び原点(開始位置)等の情報を含む。分割装置200、フォント置換装置300、及び度量情報抽出装置400は、フォントリソースを解析し、前記2種類のフォント情報であるキャラクタ符号リストと字形度量リストを抽出する。大部分のフォントには、前記2種類の情報が含まれるが、一部のフォントには、フォント名(例えば、楷書、明朝体、Times New Roman等)やフォントスタイル(例えば、斜体、太字等)等の一部のフォント属性のみが含まれ、キャラクタの外接矩形の抽出に必要な字形度量情報等のデータが不足している。このため、このような一部のフォントに対してフォント置換を行う必要があり、また、置換前後の2種類のフォントの字形幾何度量上の類似性を保つ必要もある。算出装置500は、字形度量情報とテキスト断片度量情報からキャラクタの外接矩形を算出する。
コマンド及びリソース抽出装置100は、持ち運び可能な電子ファイルからコンテンツストリームを抽出して解読を行うコンテンツストリーム抽出装置110と、解読したコンテンツストリームからテキスト断片関連コマンドを抽出するコマンド抽出装置120と、持ち運び可能な電子ファイルのページのリソースからテキスト断片関連コマンドに対応するフォントリソースを抽出するフォントリソース抽出装置130とを備える。
コンテンツストリーム抽出装置110は、PDFファイルの構造を解析し、ファイルの樹形構造を取得する。該樹形構造を用いて各ページのコンテンツストリーム及びリソースへのアクセスが容易にでき、また、コンテンツストリームの符号形式も取得できる。その後、コンテンツストリーム抽出装置110は、コンテンツストリームの符号形式に応じてコンテンツストリームの解読を行う。PDFファイルの仕様書によると、PDFファイルは、例えば、FlateDecodeやLZWDecode等の様々なコンテンツストリームの符号形式をサポートしている。PDFコンテンツストリームは、PDFコマンドとPDFコマンドに対応するパラメータからなり、各コマンド及び対応のパラメータは、1ページのプロット操作の制御に用いられる。コマンド抽出装置120は、解読後のPDFコンテンツストリームにおけるコマンドを解析し、テキスト断片に関連するテキスト断片関連コマンドを抽出し、抽出したコマンドをテキスト断片関連コマンドリストに保存する。フォントリソース抽出装置130は、テキスト断片関連コマンドにより、対応のテキスト断片に用いられたフォントリソースを取得し、抽出した現在のページのフォントリソースをフォントリソースリストに保存する。
分割装置200は、フォントリソースから字形度量情報が不足するフォントを置換すべきフォントとする。フォント置換装置300は、外部置換フォントリストから置換すべきフォントと字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、前記補欠フォントと前記置換不要のフォントを置換後フォントのフォントリソースとする。度量情報抽出装置400は、置換後フォントのフォントリソースからフォントのキャラクタ符号リストを抽出するキャラクタ符号リスト抽出装置410と、置換後フォントのフォントファイルから字形度量リストを抽出する字形度量リスト抽出装置420と、キャラクタ符号に基づいてキャラクタ符号リストからキャラクタ符号に対応するキャラクタ名称を取得するキャラクタ名称取得装置430と、キャラクタ名称に基づいて字形度量リストからキャラクタ名称に対応する字形度量情報を取得する字形度量情報取得装置440と、を有する。
分割装置200、フォント置換装置300、及び度量情報抽出装置400は、フォントリソースのキャラクタ符号リストと字形度量リストの抽出を行う。分割装置200は、フォントリソースが使用可能かどうかを検査し、十分なフォントデータが含まれていないフォントのために、類似する置換フォントの検索を行い、フォントリソースが、例えば字形度量情報が不足する等、十分な情報を有していない場合は、フォント置換装置300によりフォント置換の計算方法を用いて類似するフォントを検索する必要がある。フォント置換装置300は、外部の使用可能な置換フォントリストを取得する。該置換フォントリストにおけるフォントは、外部からロードしたもので、例えば、オペレーティングシステムに付帯しているフォントをロードしたものである。なお、フォント置換装置300は、PDFフォントリソースに必ずある一部の属性により2種類のフォント間の類似性を算出し、フォントの置換を行う。
本発明の実施例におけるフォント置換は、キャラクタの外接矩形の抽出に用いられ、例えば、StemV、StemH、Leading、XHeight、CapHeight、Ascend、Descendのようなフォント属性を用いて類似性の算出を行う。類似性の算出は、マッチング算出法を用いる。
公表されたPDF仕様書には、各フォント属性の意味への解釈があり、PDF 1.7の仕様書は、フォント属性の意味について以下のように定義している。
XHeight(X字の高さ)は、フォントの全てのキャラクタにおける最大の基本高さを指し、全てのキャラクタの基線と主線との間の距離の最大値である。
Ascend(上昇部)は、フォントの全てのキャラクタにおいて、上向きに主線の筆画を超えた部分の最大値、即ち、X字高さよりも高い部分の距離の最大値である。
Descend(下降部)は、フォントの全てのキャラクタにおいて、下向きに延伸し基線の筆画を超えた部分の最大値である。
CapHeight(大文字の高さ)は、フォントの全ての大文字キャラクタにおいて、基線を越えた部分の高さの最大値である。
Leading(行間)は、連続するテキスト行の基線間の間隔である。
StemV(垂直ステム)は、フォント字形の主要垂直ステムの幅である。
StemH(水平ステム)は、フォント字形の主要水平ステムの幅である。
前述のようなフォント属性は、キャラクタの幾何情報を表すことができ、字形度量を具体的に表すことができる。フォント置換装置300は、次の式(1)により予備フォントと置換フォントとの距離disを算出し、距離が小さければ小さいほど、類似性が高くなる。
Figure 0005664174
式中、
Figure 0005664174
は、置換すべきフォントの属性ベクトルであり、xiは、i個目フォントの属性値であり、
Figure 0005664174
は、予備フォントの属性ベクトルであり、yiは、i個目フォント属性値であり、wiは、i個目フォント属性の重み係数であり、該フォント属性の重要性を示し、nは、用いられたフォントの属性数であり、この場合、nは7であるが、一部のフォント属性を選択してもよく、言い換えれば、nは7未満の正の整数であってもよい。フォントの属性値は、PDFフォントリソースから抽出することができ、値の意味は、公表されたPDF仕様書に定義されている。
次に、フォント置換装置300は、置換すべきフォントと最も類似性の高いフォント(即ち、距離disが最小となるフォント)を補欠フォントとする。図4は、キャラクタの外接矩形の抽出效果の比較を例示する図である。該図は、異なるフォント置換方法によりTimes New Romanフォントを置換して得られたキャラクタの外接矩形の抽出效果を示す図であり、左側は無料ソフトウェアsumatrapdfのフォント置換方法によるキャラクタの外接矩形の抽出效果を示し、右側は本発明の実施例によるキャラクタの外接矩形の抽出效果を示す。本発明を用いると、より高精度のキャラクタの外接矩形の抽出結果が得られることが分かる。
PDF仕様書において、各種フォントにはそれぞれ組み込まれた符号形式、即ち、キャラクタ符号リストがあり、フォントの組み込み符号形式は、PDFフォントリソースにおける「Encoding(符号化)」項目により設定される。Encoding項目の値は、例えばMac-RomanEncoding、MacExpertEncoding、StandardEncoding、WinAnsiEncoding等の符号形式の名称であってもよく、字典項目であってもよい。Encoding項目の値が字典項目の場合、該Encoding項目の「/Differences」サブ項目は、キャラクタ符号とキャラクタ名称との対応関係が含まれ、このような対応関係により、キャラクタ符号リストが構築される。
キャラクタ符号リスト抽出装置410は、フォントのフォントリソースの解析後、該フォントリソースのEncoding項目の有無を判断し、Encoding項目が存在しない場合は、StandardEncodingといった符号形式の名称に対応するキャラクタ符号リストを抽出する。Encoding項目が存在している場合は、該Encoding項目を検査し、該Encoding項目の値が符号形式の名称であれば、キャラクタ符号リスト抽出装置410は、該名称に対応するキャラクタ符号リストを抽出し、該Encoding項目が字典項目であれば、キャラクタ符号リスト抽出装置410は、該字典項目の内容を解析し、キャラクタ名称と対応するキャラクタ符号グループによりキャラクタ符号リストを構築し、該キャラクタ符号リストを抽出する。
字形度量リスト抽出装置420は、フォントの字形度量リストを抽出し、該字形度量リストの項目は、キーと値の対(ペア)であり、キーは、キャラクタ名称であり、値は、キャラクタ名称に対応する字形度量情報である。フォント置換後、置換後のフォント(補欠フォント及び置換不要のフォント)は、キャラクタの格子化に用いられるフォントファイル、或いはAdobe Font Metrics(AFM)フォントファイルを含み、該AFMフォントファイルには、フォントの字形度量情報が含まれている。該フォントがAFMファイルを含む場合は、字形度量リスト抽出装置420は、既存のAFMファイル解析手段により解析を行い、該フォントの字形度量情報を取得し、該フォントがAFMファイルを含まない場合は、字形度量リスト抽出装置420は、既存のキャラクタ格子化エンジンによりキャ
ラクタ格子化を行い、キャラクタのベクトル図を格子画像に変換し、字形度量リスト抽出装置420により、容易に格子画像から字形度量情報を抽出することができる。キャラクタの格子化に関しては、例えばFreeType2フォントエンジン(URL:http://www.freetype.org/。)等のフォント格子化エンジンを用いることができる。
次に、キャラクタ名称取得装置430は、キャラクタ符号に基づき、キャラクタ符号リストから、キャラクタ符号に対応するキャラクタ名称を取得する。字形度量情報取得装置440は、取得したキャラクタ名称に基づき、字形度量リストからキャラクタ名称に対応する字形度量情報を取得する。
算出装置500は、持ち運び可能な電子ファイルのテキスト断片関連コマンドからテキスト断片度量情報を抽出するテキスト断片度量情報抽出装置510と、テキスト断片度量情報とキャラクタの字形度量情報から、キャラクタの外接矩形を算出する外接矩形算出装置520と、を有する。
PDF仕様書には、複数の異なる種類のテキスト断片関連コマンドが含まれており、テキスト断片度量情報抽出装置510は、その中から例えばテキスト断片の位置、水平ズーミング倍率、垂直ズーミング倍率、回転角度及びフォントサイズ等のテキスト断片度量情報を抽出する。テキスト断片は、キャラクタを含み、該キャラクタは中国語のような文字キャラクタでもよく、英語のような字母キャラクタでもよい。テキスト断片は、必ずしも単語とは限らず、必ずしも自然段落とも限らない。
PDF1.7の仕様書を参照すると、テキスト断片度量情報は、テキスト断片関連コマンドから抽出することができる。例えば、テキスト断片開始位置コマンド200 300 Tdから、テキスト断片の開始位置(200,300)を抽出し、テキスト断片マトリクスを分解し、水平ズーミング倍率、垂直ズーミング倍率、及び回転角度の3つのパラメータを得ることができ、例えば、100 0 0 100 0 0 Tmコマンドにおいて、(100,0,0,100,0,0)はテキスト断片のマトリクスであり、該マトリクスから、水平ズーミング倍率は100であり、垂直ズーミング倍率は100であり、回転角度は0であるとのような情報が得られ、また、例えば、/TT1 12 Tfコマンドからフォントサイズを抽出することができ、ここでは、フォントサイズが12となる。
外接矩形算出装置520は、テキスト断片度量情報と字形度量情報から、キャラクタの外接矩形を算出する。ベクトル(x,y,w,h,Θ)は、キャラクタの外接矩形を表し、xはキャラクタの左上角の水平座標を、yはキャラクタの左上角の垂直座標を、wはキャラクタの幅を、hはキャラクタの高さを、Θはキャラクタの回転角度を示す。テキスト断片度量情報抽出装置510は、テキスト断片関連コマンドからキャラクタの開始位置(ここでは、左上角)座標と回転角度を抽出し、例えば、コマンド“200 300 Td”からテキスト断片のキャラクタの開始位置(200,300)を取得し、次の式(2)からキャラクタの幅と高さを算出する。
Figure 0005664174
式中、gwはキャラクタの字形幅を、ghはキャラクタの字形高さを、hscaleは水平ズーミング倍率を、vscaleは垂直ズーミング倍率を、fsはフォントのサイズを示し、それぞれは、テキスト断片度量情報抽出装置510によりテキスト断片関連コマンドから抽出することができる。
テキスト断片における各キャラクタの開始位置も、テキスト断片の開始位置に応じて反復帰納法により算出でき、そのうち、同一テキスト断片におけるキャラクタの垂直座標は不変である。(x’,y’)を既知の直前のキャラクタの開始位置の座標と、(x,y)を現在のキャラクタの開始位置座標と、wiを現在のテキストキャラクタの延伸幅(キャラクタの外接矩形の幅とは異なり、キャラクタの外接矩形の幅よりも若干広い)と仮定すると、wiはキャラクタの字形の前進幅advance(図3で「前進」と表記)に対応し、advanceは字形度量情報に属し、字形度量情報取得装置440から取得することができる。advanceは、字形度量空間からテキスト度量空間へ変換後、wiとなる。次の式(3)は、対応する座標の帰納式である。
Figure 0005664174
前記計算により、テキスト断片における全てのキャラクタの外接矩形を取得することができる。
また、本発明は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出する前記コマンド及びフォントリソース抽出装置100によるコマンド及びフォントリソース抽出ステップと、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、前記置換必要なフォントを置換すべきフォントとする前記分割装置200による分割ステップと、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとする前記フォント置換装置300によるフォント置換ステップと、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する前記度量情報抽出装置400による度量情報抽出ステップと、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する前記算出装置500による算出ステップとを含む、持ち運び可能な電子ファイルからキャラクタ外接矩形を抽出する方法として実施することもできる。
コマンド及びリソース抽出ステップは、持ち運び可能な電子ファイルからコンテンツストリームを抽出して解読を行う前記コンテンツストリーム抽出装置110によるコンテンツストリーム抽出ステップと、解読したコンテンツストリームからテキスト断片関連コマンドを抽出する前記コマンド抽出装置120によるコマンド抽出ステップと、持ち運び可能な電子ファイルのページのリソースからテキスト断片関連コマンドに対応するフォントリソースを抽出する前記フォントリソース抽出装置130によるフォントリソース抽出ステップと、を有する。
分割ステップにおいて、フォントリソースにおける字形度量情報が不足するフォントを置換すべきフォントとする。
フォント置換ステップにおいて、マッチング法により、外部置換フォントリストの予備フォントと置換すべきフォントとの字形度量上の類似性を算出し、最も類似性の高い予備フォントを補欠フォントとする。
度量情報抽出ステップは、置換後フォントのフォントリソースからフォントのキャラクタ符号リストを抽出する前記キャラクタ符号リスト抽出装置410によるキャラクタ符号リスト抽出ステップと、置換後フォントのフォントファイルから字形度量リストを抽出する前記字形度量リスト抽出装置420による字形度量リスト抽出ステップと、キャラクタ符号に基づいてキャラクタ符号リストからキャラクタ符号に対応するキャラクタ名称を取得する前記キャラクタ名称取得装置430によるキャラクタ名称取得ステップと、キャラクタ名称に基づいて字形度量リストからキャラクタ名称に対応する字形度量情報を取得する前記字形度量情報取得装置440による字形度量情報取得ステップと、を有する。
算出ステップは、持ち運び可能な電子ファイルのテキスト断片関連コマンドからテキスト断片度量情報を抽出する前記テキスト断片度量情報抽出装置510によるテキスト断片度量情報抽出ステップと、テキスト断片度量情報とキャラクタの字形度量情報から、キャラクタの外接矩形を算出する前記外接矩形算出装置520による外接矩形算出ステップと、を有する。
本願明細書において、PDFファイルを例として説明したが、本発明の実施例は、例えば、PS形式の持ち運び可能な電子ファイルにも応用可能なことは言うまでもない。
また、本願明細書における一連の操作は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにより行うことができる。例えば、コンピュータプログラムを予め記録媒体であるハードディスクやROM等に記憶しておいてもよく、一時的に或いは永久的にフロッピディスク、CD−ROM、MO、DVD、ディスク、半導体メモリ等の移動可能な記録媒体に記憶しておいてもよい。ソフトウェアにより一連の操作を行う場合は、その中のコンピュータプログラムを、専用のハードウェアを内蔵したコンピュータの記憶装置にインストールし、該コンピュータに該コンピュータプログラムを実行させることができ、或いは、コンピュータプログラムを、多様な種類の処理が実行可能な汎用コンピュータにインストールし、該コンピュータに該コンピュータプログラムを実行さ
せることができる。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
米国特許第6801673B2号明細書 米国特許第5859648号明細書

Claims (7)

  1. 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置であって、
    持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンド及びフォントリソースを抽出するコマンド及びフォントリソース抽出装置と、
    フォントリソースを、置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割装置であって、前記分割装置は、フォントリソースにおける字形度量情報が不足するフォントを置換すべきフォントとする、分割装置と、
    外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換装置と、
    置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出装置と、
    テキスト断片関連コマンドとキャラクタの字形度量情報から、キャラクタの外接矩形を算出する算出装置と、
    を備える、装置。
  2. 前記コマンド及びリソース抽出装置は、
    持ち運び可能な電子ファイルからコンテンツストリームを抽出して解読を行うコンテンツストリーム抽出装置と、
    解読したコンテンツストリームからテキスト断片関連コマンドを抽出するコマンド抽出装置と、
    持ち運び可能な電子ファイルのページのリソースからテキスト断片関連コマンドに対応するフォントリソースを抽出するフォントリソース抽出装置と、
    を備える、請求項1に記載の装置。
  3. 前記フォント置換装置は、マッチング法により、外部置換フォントリストの予備フォントと置換すべきフォントとの字形度量上の類似性を算出し、類似性の最も高い予備フォントを補欠フォントとする、請求項1に記載の装置。
  4. 前記度量情報抽出装置は、
    置換後フォントのフォントリソースからフォントのキャラクタ符号リストを抽出するキャラクタ符号リスト抽出装置と、
    置換後フォントのフォントファイルから字形度量リストを抽出する字形度量リスト抽出装置と、
    キャラクタ符号に基づき、キャラクタ符号リストからキャラクタ符号に対応するキャラクタ名称を取得するキャラクタ名称取得装置と、
    キャラクタ名称に基づき、字形度量リストからキャラクタ名称に対応する字形度量情報を取得する字形度量情報取得装置と、
    を備える、請求項1に記載の装置。
  5. 前記算出装置は、
    持ち運び可能な電子ファイルのテキスト断片関連コマンドからテキスト断片度量情報を抽出するテキスト断片度量情報抽出装置と、
    テキスト断片度量情報とキャラクタの字形度量情報から、キャラクタの外接矩形を算出する外接矩形算出装置と、
    を有する、請求項1に記載の装置。
  6. 前記持ち運び可能な電子ファイルはPDF形式のファイルである、請求項1に記載の装置。
  7. 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置における方法であって、
    前記装置は、コマンド及びフォントリソース抽出装置、分割装置、フォント置換装置、度量情報抽出装置、及び算出装置を含み、
    前記コマンド及びフォントリソース抽出装置が、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出ステップと、
    前記分割装置が、フォントリソースを、置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割ステップであって、前記分割装置が、フォントリソースにおける字形度量情報が不足するフォントを置換すべきフォントとする、分割ステップと、
    前記フォント置換装置が、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換ステップと、
    前記度量情報抽出装置が、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出ステップと、
    前記算出装置が、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出ステップと、
    を備える、方法。
JP2010263936A 2009-11-27 2010-11-26 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 Expired - Fee Related JP5664174B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910249849.1 2009-11-27
CN200910249849.1A CN102081594B (zh) 2009-11-27 2009-11-27 从可移植电子文档中提取字符外接矩形的设备和方法

Publications (2)

Publication Number Publication Date
JP2011113569A JP2011113569A (ja) 2011-06-09
JP5664174B2 true JP5664174B2 (ja) 2015-02-04

Family

ID=43587155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010263936A Expired - Fee Related JP5664174B2 (ja) 2009-11-27 2010-11-26 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法

Country Status (4)

Country Link
US (1) US8452097B2 (ja)
EP (1) EP2328098B1 (ja)
JP (1) JP5664174B2 (ja)
CN (1) CN102081594B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008109394A (ja) * 2006-10-25 2008-05-08 Canon Inc 画像処理装置及びその方法、プログラム
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
CN103699520A (zh) * 2012-09-27 2014-04-02 茵弗维尔株式会社 用于维持电子文档布局的字体处理方法
CN105608064A (zh) * 2015-11-24 2016-05-25 小米科技有限责任公司 字符替换方法及装置
US20170249292A1 (en) * 2016-02-29 2017-08-31 Microsoft Technology Licensing, Llc Conditional determination of lookups in glyph processing
US10007868B2 (en) * 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
CN107704615B (zh) * 2017-10-24 2022-01-04 北京有字库网络科技有限公司 基于中文字体子集化的网页字体显示方法及系统
CN109902277B (zh) * 2017-12-07 2023-05-26 珠海金山办公软件有限公司 一种文档编辑方法、装置、电子设备和可读存储介质
CN110968667B (zh) * 2019-11-27 2023-04-18 广西大学 一种基于文本状态特征的期刊文献表格抽取方法
CN116776828B (zh) * 2023-08-28 2023-12-19 福昕鲲鹏(北京)信息科技有限公司 文本渲染方法、装置、设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2125608A1 (en) * 1993-06-30 1994-12-31 George M. Moore Method and system for providing substitute computer fonts
EP0870246B1 (en) * 1995-09-25 2007-06-06 Adobe Systems Incorporated Optimum access to electronic documents
US6522330B2 (en) * 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
US7472348B2 (en) * 1998-11-05 2008-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium using character size and width for magnification
JP2001043212A (ja) * 1999-07-23 2001-02-16 Internatl Business Mach Corp <Ibm> 電子文書における文字情報の正規化方法
US6853980B1 (en) * 1999-09-07 2005-02-08 Bitstream Inc. System for selecting, distributing, and selling fonts
JP4293721B2 (ja) * 2000-10-13 2009-07-08 富士通株式会社 携帯電子ビューワシステム
US6801673B2 (en) 2001-10-09 2004-10-05 Hewlett-Packard Development Company, L.P. Section extraction tool for PDF documents
JP4905899B2 (ja) * 2005-07-28 2012-03-28 シャープ株式会社 情報処理システム、情報処理プログラムおよび可読記録媒体
JP4444922B2 (ja) * 2006-01-20 2010-03-31 シャープ株式会社 フォントダウンロード装置およびフォントダウンロードプログラム
US8271470B2 (en) * 2007-06-09 2012-09-18 Apple Inc. Auto-activation of fonts
KR20090046142A (ko) * 2007-11-05 2009-05-11 삼성전자주식회사 입력 필체 자동 변환 시스템 및 방법
JP4926004B2 (ja) * 2007-11-12 2012-05-09 株式会社リコー 文書処理装置、文書処理方法及び文書処理プログラム

Also Published As

Publication number Publication date
EP2328098B1 (en) 2013-05-15
US8452097B2 (en) 2013-05-28
EP2328098A2 (en) 2011-06-01
EP2328098A3 (en) 2011-06-29
CN102081594A (zh) 2011-06-01
US20110129157A1 (en) 2011-06-02
JP2011113569A (ja) 2011-06-09
CN102081594B (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
JP5664174B2 (ja) 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法
US8254681B1 (en) Display of document image optimized for reading
US8660356B2 (en) Recognizing text at multiple orientations
US7705848B2 (en) Method of identifying semantic units in an electronic document
US7643682B2 (en) Method of identifying redundant text in an electronic document
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
JPH08249329A (ja) ポータブル電子文書に記載されている単語を識別する方法及び装置
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
US9008425B2 (en) Detection of numbered captions
US11283964B2 (en) Utilizing intelligent sectioning and selective document reflow for section-based printing
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
US10534846B1 (en) Page stream segmentation
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP5633188B2 (ja) 移植可能な電子文書からラスタ画像を抽出する方法及び装置
US20230004706A1 (en) Device Dependent Rendering of PDF Content Including Multiple Articles and a Table of Contents
Lin Header and footer extraction by page association
CN114564915A (zh) 文本排版方法、电子设备及存储介质
EP2416281A2 (en) Font matching
Setlur et al. Creation of data resources and design of an evaluation test bed for Devanagari script recognition
CN101833544A (zh) 从可移植电子文档中提取文字部件的方法和系统
JP2011180687A (ja) 多言語文書解析装置
US20230039280A1 (en) Device dependent rendering of pdf content
JP4919245B2 (ja) 行組版装置、行組版プログラム及びそれを記録した記録媒体
JP2010146509A (ja) 文書検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141124

R151 Written notification of patent or utility model registration

Ref document number: 5664174

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees