JP5664174B2

JP5664174B2 - 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法

Info

Publication number: JP5664174B2
Application number: JP2010263936A
Authority: JP
Inventors: シュイウエヌホォイ; ドゥチョン; 長谷川　史裕; 史裕長谷川; 井上　浩一; 浩一井上
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-11-27
Filing date: 2010-11-26
Publication date: 2015-02-04
Anticipated expiration: 2030-11-26
Also published as: CN102081594B; US8452097B2; CN102081594A; JP2011113569A; US20110129157A1; EP2328098A2; EP2328098B1; EP2328098A3

Description

本発明は、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法に関し、具体的には、フォントの置換が必要な場合の持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法に関する。

ＰＤＦ（Portable Document Format）やＰＳ（PostScript）のような持ち運び可能な電子ファイルは、日常の事務作業で幅広く用いられている。しかし、持ち運び可能な電子ファイルからの特定の情報の抽出は、やはり容易な作業ではない。例えば、Adobe Acrobatは、ＰＤＦファイルからキャラクタの外接矩形を抽出することができるが、抽出結果が好ましくない場合があり、その原因として、ＰＤＦファイルにおけるあるフォントが使用不可、即ち、字形度量情報が乏しい場合、該フォントのキャラクタの外接矩形が抽出不可となることが考えられる。

既存のフォント置換の計算方法は、主にキャラクタの格子化に注目し、視覚上類似するフォントを検索している。しかし、このような計算方法は、キャラクタの外接矩形の抽出に適用できない。キャラクタの外接矩形の抽出は、視覚上類似するフォントではなく、字形度量上類似するフォントを検索する必要がある。

特許文献１には、ＰＤＦファイルからの単語の抽出方法が開示されている。該方法は、テキスト断片における単語分離キャラクタ（スペース）を検出することにより単語の抽出を行い、又は、隣接するテキスト断片の間の距離を判断し、該距離が一定の閾値を越えると、隣接するテキスト断片が２つの単語に分割されることにより単語の抽出を行う。該方法において、入力はＰＤＦファイであり、出力は該文書に含まれる単語の集合である。

特許文献２には、コンピュータに用いられるフォント置換方法が開示されている。該方法は、主に置換すべきフォントと視覚上類似するフォントを検索し、その目的は、キャラクタの格子化を行うためである。該方法は、先ず、フォントリストから類似する１つのフォントを検索した後に、キャラクタの視覚上の変化がないようにフォント全体の幅を調整する。類似するフォントの選択は、フォントの視覚上の類似性により採点を行うが、字形度量上の類似性を考慮していない。キャラクタの外接矩形の抽出に関しては、視覚上類似するフォントではなく、字形度量上類似するフォントを検索する必要があるため、該方法によるフォント置換方法は、キャラクタの外接矩形の抽出に何ら効果もない。

本発明は、従来技術の前述のような問題を解決するためになされたものであり、持ち運び可能な電子ファイルのあるフォントに字形度量情報が足りない場合、フォントの置換により、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法を提供する。キャラクタの外接矩形は、キャラクタの最小外接矩形ともいう。本発明は、文書処理の分野に属し、文書コンテンツの抽出、文書の再利用及び文書の検索に用いることができる。

本発明の１つの側面によると、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置が提供される。この装置は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出装置と、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割装置と、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換装置と、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出装置と、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出装置と、を備える。

本発明の他の側面によると、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する方法が提供される。この方法は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出ステップと、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割ステップと、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換ステップと、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出ステップと、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出ステップと、を有する。

本発明によれば、ＰＤＦやＰＳのような持ち運び可能な電子ファイルからキャラクタの最小外接矩形を抽出することができ、抽出したキャラクタの外接矩形は、文書の再利用や文書の検索等に用いることができる。例えば、キャラクタの外接矩形の幾何分布の関係を比較することにより、電子ファイルと文書画像とをマッチングさせ、文書検索を行うことができる。

本発明の実施例による、持ち運び可能な電子ファイルからキャラクタの外接矩形の抽出を行うコンピュータシステムを示す図である。本発明の実施列による、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置全体のブロック図である。キャラクタ「ｇ」の字形度量情報を示す図である。キャラクタの外接矩形の抽出効果の比較を示す図であり、左側は無料ソフトウェアｓｕｍａｔｒａｐｄｆのフォント置換方法によるキャラクタの外接矩形の抽出効果を示し、右側は本発明の実施例によるキャラクタの外接矩形の抽出効果を示す。

図１に示すように、本発明の実施例における、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出できるコンピュータシステム１０は、コンピュータ１１と、キーボード１６と、モニター１７と、プリンタ１８、フロッピディスクドライブ１９と、ネットワーク接続器２０と、ハードディスクドライブ２１とを含む。コンピュータ１１は、データバス１２と、ＲＡＭ１３と、ＲＯＭ１４と、ＣＰＵ１５と、周辺機器バス２２を備える。

ＣＰＵ１５は、ＲＡＭ１３からのコマンドにより、入力データの受信と処理、及び、モニター１７や他の周辺機器への出力を制御する。本実施例において、ＣＰＵ１５は、入力されたＰＤＦファイルへの処理を行い、該ファイルに含まれているキャラクタの最小外接矩形の抽出を行う機能をする。抽出した外接矩形は、ＣＰＵ１５における他のアプリケーションに用いられてもよい。

ＣＰＵ１５は、データバス１２により、ＲＡＭ１３とＲＯＭ１４へのアクセスを行う。ＲＡＭ１３は、読み取り・書き込み可能なメモリとして用いられ、各プロセスのワークエリアと可変データ記憶領域として用いられる。ＲＯＭ１４には、ＰＤＦのような持ち運び可能な電子ファイル、キャラクタの最小外接矩形の抽出プログラム、及び、抽出したキャラクタの最小外接矩形を利用する他のアプリケーションが保存される。

周辺機器バス２２は、コンピュータ１１に接続されている入力装置、出力装置、及び記憶装置等の周辺機器へのアクセスに用いられる。本実施例において、前記周辺機器は、モニター１７と、プリンタ１８と、フロッピディスクドライブ１９と、ネットワーク接続器２０と、ハードディスクドライブ２１を備える。モニター１７は、周辺機器バス２２により、ＣＰＵ１５からの出力データと画像を表示する。モニター１７は、ＣＲＴやＬＣＤディスプレイ等のようなグリッド（格子）形式の表示装置であって良い。プリンタ１８は、ＣＰＵ１５からの入力データと画像を紙や紙のような媒体に印刷する。コンピュータシステム１０は、モニター１７やプリンタ１８等の出力装置にＰＤＦファイルを表示するために、文書の格子化を行い、ＰＤＦファイルからその対応画像の表示変換を行う必要がある。他の実施例において、プリンタ１８のような出力装置には、ＣＰＵやＣＰＵのようなプロセッサが設けられ、類似のＰＤＦファイルから画像への変換を行ってもよい。フロッピディスクドライブ１９とハードディスクドライブ２１は、ＰＤＦファイルの保存に用いられる。フロッピディスクドライブ１９により、異なるコンピュータシステム間のＰＤＦファイルの転送が可能となる。ハードディスク２１は、より大きな記憶スペースと、より速いアクセス速度を有する。他の記憶装置、例えば、フラッシュメモリは、ＰＤＦファイルの保存やコンピュータシステム１０のアクセスに用いられてもよい。コンピュータシステム１０は、ネットワーク接続器２０により、ネットワーク上でデータの送信と他のコンピュータシステムからのデータの受信を行う。ユーザは、キーボード１６により、コマンドをコンピュータシステム１０に入力することができる。

図２は、本発明の実施例における、持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置全体のブロック図である。該持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出装置１００と、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割装置２００と、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換
装置３００と、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出装置４００と、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出装置５００と、を備える。

持ち運び可能な電子ファイルは、ＰＤＦ形式のファイルでもよく、ＰＳのような他の形式の持ち運び可能な電子ファイルでもよい。

キャラクタの外接矩形の抽出は、２種類のフォント情報、即ち、キャラクタ符号リストと字形度量リストが必要となる。キャラクタ符号リストは、キャラクタ符号とキャラクタ名称との対応関係を示し、例えば、キャラクタ符号６５に対し、対応のキャラクタ名称は、「A」である。ＰＤＦは、異なる種類のフォント符号化方法を用いるため、各種フォントに対応する符号形式を判断する必要がある。字形度量リストは、キャラクタ名称と字形度量情報の対応関係を反映する。

図３は、キャラクタ「g」の字形度量情報を例示的に示す図である。図３に示すように、字形度量情報は、字形の幅、高さ、x方向の最大値と最小値、y方向の最大値と最小値、及び原点（開始位置）等の情報を含む。分割装置２００、フォント置換装置３００、及び度量情報抽出装置４００は、フォントリソースを解析し、前記２種類のフォント情報であるキャラクタ符号リストと字形度量リストを抽出する。大部分のフォントには、前記２種類の情報が含まれるが、一部のフォントには、フォント名（例えば、楷書、明朝体、Times New Roman等）やフォントスタイル（例えば、斜体、太字等）等の一部のフォント属性のみが含まれ、キャラクタの外接矩形の抽出に必要な字形度量情報等のデータが不足している。このため、このような一部のフォントに対してフォント置換を行う必要があり、また、置換前後の２種類のフォントの字形幾何度量上の類似性を保つ必要もある。算出装置５００は、字形度量情報とテキスト断片度量情報からキャラクタの外接矩形を算出する。

コマンド及びリソース抽出装置１００は、持ち運び可能な電子ファイルからコンテンツストリームを抽出して解読を行うコンテンツストリーム抽出装置１１０と、解読したコンテンツストリームからテキスト断片関連コマンドを抽出するコマンド抽出装置１２０と、持ち運び可能な電子ファイルのページのリソースからテキスト断片関連コマンドに対応するフォントリソースを抽出するフォントリソース抽出装置１３０とを備える。

コンテンツストリーム抽出装置１１０は、ＰＤＦファイルの構造を解析し、ファイルの樹形構造を取得する。該樹形構造を用いて各ページのコンテンツストリーム及びリソースへのアクセスが容易にでき、また、コンテンツストリームの符号形式も取得できる。その後、コンテンツストリーム抽出装置１１０は、コンテンツストリームの符号形式に応じてコンテンツストリームの解読を行う。ＰＤＦファイルの仕様書によると、ＰＤＦファイルは、例えば、FlateDecodeやLZWDecode等の様々なコンテンツストリームの符号形式をサポートしている。ＰＤＦコンテンツストリームは、ＰＤＦコマンドとＰＤＦコマンドに対応するパラメータからなり、各コマンド及び対応のパラメータは、１ページのプロット操作の制御に用いられる。コマンド抽出装置１２０は、解読後のＰＤＦコンテンツストリームにおけるコマンドを解析し、テキスト断片に関連するテキスト断片関連コマンドを抽出し、抽出したコマンドをテキスト断片関連コマンドリストに保存する。フォントリソース抽出装置１３０は、テキスト断片関連コマンドにより、対応のテキスト断片に用いられたフォントリソースを取得し、抽出した現在のページのフォントリソースをフォントリソースリストに保存する。

分割装置２００は、フォントリソースから字形度量情報が不足するフォントを置換すべきフォントとする。フォント置換装置３００は、外部置換フォントリストから置換すべきフォントと字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、前記補欠フォントと前記置換不要のフォントを置換後フォントのフォントリソースとする。度量情報抽出装置４００は、置換後フォントのフォントリソースからフォントのキャラクタ符号リストを抽出するキャラクタ符号リスト抽出装置４１０と、置換後フォントのフォントファイルから字形度量リストを抽出する字形度量リスト抽出装置４２０と、キャラクタ符号に基づいてキャラクタ符号リストからキャラクタ符号に対応するキャラクタ名称を取得するキャラクタ名称取得装置４３０と、キャラクタ名称に基づいて字形度量リストからキャラクタ名称に対応する字形度量情報を取得する字形度量情報取得装置４４０と、を有する。

分割装置２００、フォント置換装置３００、及び度量情報抽出装置４００は、フォントリソースのキャラクタ符号リストと字形度量リストの抽出を行う。分割装置２００は、フォントリソースが使用可能かどうかを検査し、十分なフォントデータが含まれていないフォントのために、類似する置換フォントの検索を行い、フォントリソースが、例えば字形度量情報が不足する等、十分な情報を有していない場合は、フォント置換装置３００によりフォント置換の計算方法を用いて類似するフォントを検索する必要がある。フォント置換装置３００は、外部の使用可能な置換フォントリストを取得する。該置換フォントリストにおけるフォントは、外部からロードしたもので、例えば、オペレーティングシステムに付帯しているフォントをロードしたものである。なお、フォント置換装置３００は、ＰＤＦフォントリソースに必ずある一部の属性により２種類のフォント間の類似性を算出し、フォントの置換を行う。

本発明の実施例におけるフォント置換は、キャラクタの外接矩形の抽出に用いられ、例えば、StemV、StemH、Leading、XHeight、CapHeight、Ascend、Descendのようなフォント属性を用いて類似性の算出を行う。類似性の算出は、マッチング算出法を用いる。

公表されたＰＤＦ仕様書には、各フォント属性の意味への解釈があり、ＰＤＦ１.７の仕様書は、フォント属性の意味について以下のように定義している。

XHeight（X字の高さ）は、フォントの全てのキャラクタにおける最大の基本高さを指し、全てのキャラクタの基線と主線との間の距離の最大値である。

Ascend（上昇部）は、フォントの全てのキャラクタにおいて、上向きに主線の筆画を超えた部分の最大値、即ち、X字高さよりも高い部分の距離の最大値である。

Descend（下降部）は、フォントの全てのキャラクタにおいて、下向きに延伸し基線の筆画を超えた部分の最大値である。

CapHeight（大文字の高さ）は、フォントの全ての大文字キャラクタにおいて、基線を越えた部分の高さの最大値である。

Leading（行間）は、連続するテキスト行の基線間の間隔である。

StemV（垂直ステム）は、フォント字形の主要垂直ステムの幅である。

StemH（水平ステム）は、フォント字形の主要水平ステムの幅である。

前述のようなフォント属性は、キャラクタの幾何情報を表すことができ、字形度量を具体的に表すことができる。フォント置換装置３００は、次の式（１）により予備フォントと置換フォントとの距離disを算出し、距離が小さければ小さいほど、類似性が高くなる。

式中、

は、置換すべきフォントの属性ベクトルであり、ｘ_iは、i個目フォントの属性値であり、

は、予備フォントの属性ベクトルであり、y_iは、i個目フォント属性値であり、w_iは、i個目フォント属性の重み係数であり、該フォント属性の重要性を示し、nは、用いられたフォントの属性数であり、この場合、nは７であるが、一部のフォント属性を選択してもよく、言い換えれば、nは７未満の正の整数であってもよい。フォントの属性値は、ＰＤＦフォントリソースから抽出することができ、値の意味は、公表されたＰＤＦ仕様書に定義されている。

次に、フォント置換装置３００は、置換すべきフォントと最も類似性の高いフォント（即ち、距離disが最小となるフォント）を補欠フォントとする。図４は、キャラクタの外接矩形の抽出效果の比較を例示する図である。該図は、異なるフォント置換方法によりTimes New Romanフォントを置換して得られたキャラクタの外接矩形の抽出效果を示す図であり、左側は無料ソフトウェアsumatrapdfのフォント置換方法によるキャラクタの外接矩形の抽出效果を示し、右側は本発明の実施例によるキャラクタの外接矩形の抽出效果を示す。本発明を用いると、より高精度のキャラクタの外接矩形の抽出結果が得られることが分かる。

ＰＤＦ仕様書において、各種フォントにはそれぞれ組み込まれた符号形式、即ち、キャラクタ符号リストがあり、フォントの組み込み符号形式は、ＰＤＦフォントリソースにおける「Encoding（符号化）」項目により設定される。Encoding項目の値は、例えばMac-RomanEncoding、MacExpertEncoding、StandardEncoding、WinAnsiEncoding等の符号形式の名称であってもよく、字典項目であってもよい。Encoding項目の値が字典項目の場合、該Encoding項目の「/Differences」サブ項目は、キャラクタ符号とキャラクタ名称との対応関係が含まれ、このような対応関係により、キャラクタ符号リストが構築される。

キャラクタ符号リスト抽出装置４１０は、フォントのフォントリソースの解析後、該フォントリソースのEncoding項目の有無を判断し、Encoding項目が存在しない場合は、StandardEncodingといった符号形式の名称に対応するキャラクタ符号リストを抽出する。Encoding項目が存在している場合は、該Encoding項目を検査し、該Encoding項目の値が符号形式の名称であれば、キャラクタ符号リスト抽出装置４１０は、該名称に対応するキャラクタ符号リストを抽出し、該Encoding項目が字典項目であれば、キャラクタ符号リスト抽出装置４１０は、該字典項目の内容を解析し、キャラクタ名称と対応するキャラクタ符号グループによりキャラクタ符号リストを構築し、該キャラクタ符号リストを抽出する。

字形度量リスト抽出装置４２０は、フォントの字形度量リストを抽出し、該字形度量リストの項目は、キーと値の対（ペア）であり、キーは、キャラクタ名称であり、値は、キャラクタ名称に対応する字形度量情報である。フォント置換後、置換後のフォント（補欠フォント及び置換不要のフォント）は、キャラクタの格子化に用いられるフォントファイル、或いはAdobe Font Metrics（ＡＦＭ）フォントファイルを含み、該ＡＦＭフォントファイルには、フォントの字形度量情報が含まれている。該フォントがＡＦＭファイルを含む場合は、字形度量リスト抽出装置４２０は、既存のＡＦＭファイル解析手段により解析を行い、該フォントの字形度量情報を取得し、該フォントがＡＦＭファイルを含まない場合は、字形度量リスト抽出装置４２０は、既存のキャラクタ格子化エンジンによりキャ
ラクタ格子化を行い、キャラクタのベクトル図を格子画像に変換し、字形度量リスト抽出装置４２０により、容易に格子画像から字形度量情報を抽出することができる。キャラクタの格子化に関しては、例えばFreeType２フォントエンジン（ＵＲＬ：http：//www.freetype.org/。）等のフォント格子化エンジンを用いることができる。

次に、キャラクタ名称取得装置４３０は、キャラクタ符号に基づき、キャラクタ符号リストから、キャラクタ符号に対応するキャラクタ名称を取得する。字形度量情報取得装置４４０は、取得したキャラクタ名称に基づき、字形度量リストからキャラクタ名称に対応する字形度量情報を取得する。

算出装置５００は、持ち運び可能な電子ファイルのテキスト断片関連コマンドからテキスト断片度量情報を抽出するテキスト断片度量情報抽出装置５１０と、テキスト断片度量情報とキャラクタの字形度量情報から、キャラクタの外接矩形を算出する外接矩形算出装置５２０と、を有する。

ＰＤＦ仕様書には、複数の異なる種類のテキスト断片関連コマンドが含まれており、テキスト断片度量情報抽出装置５１０は、その中から例えばテキスト断片の位置、水平ズーミング倍率、垂直ズーミング倍率、回転角度及びフォントサイズ等のテキスト断片度量情報を抽出する。テキスト断片は、キャラクタを含み、該キャラクタは中国語のような文字キャラクタでもよく、英語のような字母キャラクタでもよい。テキスト断片は、必ずしも単語とは限らず、必ずしも自然段落とも限らない。

ＰＤＦ１.７の仕様書を参照すると、テキスト断片度量情報は、テキスト断片関連コマンドから抽出することができる。例えば、テキスト断片開始位置コマンド２００３００ Tdから、テキスト断片の開始位置（２００，３００）を抽出し、テキスト断片マトリクスを分解し、水平ズーミング倍率、垂直ズーミング倍率、及び回転角度の３つのパラメータを得ることができ、例えば、１００００１００００ Tmコマンドにおいて、（１００，０，０，１００，０，０）はテキスト断片のマトリクスであり、該マトリクスから、水平ズーミング倍率は１００であり、垂直ズーミング倍率は１００であり、回転角度は０であるとのような情報が得られ、また、例えば、/TT１１２ Tfコマンドからフォントサイズを抽出することができ、ここでは、フォントサイズが１２となる。

外接矩形算出装置５２０は、テキスト断片度量情報と字形度量情報から、キャラクタの外接矩形を算出する。ベクトル(x,y,w,h,Θ)は、キャラクタの外接矩形を表し、xはキャラクタの左上角の水平座標を、yはキャラクタの左上角の垂直座標を、wはキャラクタの幅を、hはキャラクタの高さを、Θはキャラクタの回転角度を示す。テキスト断片度量情報抽出装置５１０は、テキスト断片関連コマンドからキャラクタの開始位置（ここでは、左上角）座標と回転角度を抽出し、例えば、コマンド“２００３００ Td”からテキスト断片のキャラクタの開始位置（２００，３００）を取得し、次の式（２）からキャラクタの幅と高さを算出する。

式中、gwはキャラクタの字形幅を、ghはキャラクタの字形高さを、hscaleは水平ズーミング倍率を、vscaleは垂直ズーミング倍率を、fsはフォントのサイズを示し、それぞれは、テキスト断片度量情報抽出装置５１０によりテキスト断片関連コマンドから抽出することができる。

テキスト断片における各キャラクタの開始位置も、テキスト断片の開始位置に応じて反復帰納法により算出でき、そのうち、同一テキスト断片におけるキャラクタの垂直座標は不変である。(x’,y’)を既知の直前のキャラクタの開始位置の座標と、(x,y)を現在のキャラクタの開始位置座標と、wⁱを現在のテキストキャラクタの延伸幅（キャラクタの外接矩形の幅とは異なり、キャラクタの外接矩形の幅よりも若干広い）と仮定すると、wⁱはキャラクタの字形の前進幅advance（図３で「前進」と表記）に対応し、advanceは字形度量情報に属し、字形度量情報取得装置４４０から取得することができる。advanceは、字形度量空間からテキスト度量空間へ変換後、wⁱとなる。次の式（３）は、対応する座標の帰納式である。

前記計算により、テキスト断片における全てのキャラクタの外接矩形を取得することができる。

また、本発明は、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出する前記コマンド及びフォントリソース抽出装置１００によるコマンド及びフォントリソース抽出ステップと、フォントリソースを置換不要なフォントと置換必要なフォントに分割し、前記置換必要なフォントを置換すべきフォントとする前記分割装置２００による分割ステップと、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとする前記フォント置換装置３００によるフォント置換ステップと、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する前記度量情報抽出装置４００による度量情報抽出ステップと、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する前記算出装置５００による算出ステップとを含む、持ち運び可能な電子ファイルからキャラクタ外接矩形を抽出する方法として実施することもできる。

コマンド及びリソース抽出ステップは、持ち運び可能な電子ファイルからコンテンツストリームを抽出して解読を行う前記コンテンツストリーム抽出装置１１０によるコンテンツストリーム抽出ステップと、解読したコンテンツストリームからテキスト断片関連コマンドを抽出する前記コマンド抽出装置１２０によるコマンド抽出ステップと、持ち運び可能な電子ファイルのページのリソースからテキスト断片関連コマンドに対応するフォントリソースを抽出する前記フォントリソース抽出装置１３０によるフォントリソース抽出ステップと、を有する。

分割ステップにおいて、フォントリソースにおける字形度量情報が不足するフォントを置換すべきフォントとする。

フォント置換ステップにおいて、マッチング法により、外部置換フォントリストの予備フォントと置換すべきフォントとの字形度量上の類似性を算出し、最も類似性の高い予備フォントを補欠フォントとする。

度量情報抽出ステップは、置換後フォントのフォントリソースからフォントのキャラクタ符号リストを抽出する前記キャラクタ符号リスト抽出装置４１０によるキャラクタ符号リスト抽出ステップと、置換後フォントのフォントファイルから字形度量リストを抽出する前記字形度量リスト抽出装置４２０による字形度量リスト抽出ステップと、キャラクタ符号に基づいてキャラクタ符号リストからキャラクタ符号に対応するキャラクタ名称を取得する前記キャラクタ名称取得装置４３０によるキャラクタ名称取得ステップと、キャラクタ名称に基づいて字形度量リストからキャラクタ名称に対応する字形度量情報を取得する前記字形度量情報取得装置４４０による字形度量情報取得ステップと、を有する。

算出ステップは、持ち運び可能な電子ファイルのテキスト断片関連コマンドからテキスト断片度量情報を抽出する前記テキスト断片度量情報抽出装置５１０によるテキスト断片度量情報抽出ステップと、テキスト断片度量情報とキャラクタの字形度量情報から、キャラクタの外接矩形を算出する前記外接矩形算出装置５２０による外接矩形算出ステップと、を有する。

本願明細書において、ＰＤＦファイルを例として説明したが、本発明の実施例は、例えば、ＰＳ形式の持ち運び可能な電子ファイルにも応用可能なことは言うまでもない。

また、本願明細書における一連の操作は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにより行うことができる。例えば、コンピュータプログラムを予め記録媒体であるハードディスクやＲＯＭ等に記憶しておいてもよく、一時的に或いは永久的にフロッピディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ディスク、半導体メモリ等の移動可能な記録媒体に記憶しておいてもよい。ソフトウェアにより一連の操作を行う場合は、その中のコンピュータプログラムを、専用のハードウェアを内蔵したコンピュータの記憶装置にインストールし、該コンピュータに該コンピュータプログラムを実行させることができ、或いは、コンピュータプログラムを、多様な種類の処理が実行可能な汎用コンピュータにインストールし、該コンピュータに該コンピュータプログラムを実行さ
せることができる。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。

米国特許第６８０１６７３B２号明細書米国特許第５８５９６４８号明細書

Claims

持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置であって、
持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンド及びフォントリソースを抽出するコマンド及びフォントリソース抽出装置と、
フォントリソースを、置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割装置であって、前記分割装置は、フォントリソースにおける字形度量情報が不足するフォントを置換すべきフォントとする、分割装置と、
外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換装置と、
置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出装置と、
テキスト断片関連コマンドとキャラクタの字形度量情報から、キャラクタの外接矩形を算出する算出装置と、
を備える、装置。
前記コマンド及びリソース抽出装置は、
持ち運び可能な電子ファイルからコンテンツストリームを抽出して解読を行うコンテンツストリーム抽出装置と、
解読したコンテンツストリームからテキスト断片関連コマンドを抽出するコマンド抽出装置と、
持ち運び可能な電子ファイルのページのリソースからテキスト断片関連コマンドに対応するフォントリソースを抽出するフォントリソース抽出装置と、
を備える、請求項１に記載の装置。
前記フォント置換装置は、マッチング法により、外部置換フォントリストの予備フォントと置換すべきフォントとの字形度量上の類似性を算出し、類似性の最も高い予備フォントを補欠フォントとする、請求項１に記載の装置。
前記度量情報抽出装置は、
置換後フォントのフォントリソースからフォントのキャラクタ符号リストを抽出するキャラクタ符号リスト抽出装置と、
置換後フォントのフォントファイルから字形度量リストを抽出する字形度量リスト抽出装置と、
キャラクタ符号に基づき、キャラクタ符号リストからキャラクタ符号に対応するキャラクタ名称を取得するキャラクタ名称取得装置と、
キャラクタ名称に基づき、字形度量リストからキャラクタ名称に対応する字形度量情報を取得する字形度量情報取得装置と、
を備える、請求項１に記載の装置。
前記算出装置は、
持ち運び可能な電子ファイルのテキスト断片関連コマンドからテキスト断片度量情報を抽出するテキスト断片度量情報抽出装置と、
テキスト断片度量情報とキャラクタの字形度量情報から、キャラクタの外接矩形を算出する外接矩形算出装置と、
を有する、請求項１に記載の装置。
前記持ち運び可能な電子ファイルはＰＤＦ形式のファイルである、請求項１に記載の装置。
持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置における方法であって、
前記装置は、コマンド及びフォントリソース抽出装置、分割装置、フォント置換装置、度量情報抽出装置、及び算出装置を含み、
前記コマンド及びフォントリソース抽出装置が、持ち運び可能な電子ファイルのページに対し、該ページにおけるテキスト断片に対応するテキスト断片関連コマンドとフォントリソースを抽出するコマンド及びフォントリソース抽出ステップと、
前記分割装置が、フォントリソースを、置換不要なフォントと置換必要なフォントに分割し、該置換必要なフォントを置換すべきフォントとする分割ステップであって、前記分割装置が、フォントリソースにおける字形度量情報が不足するフォントを置換すべきフォントとする、分割ステップと、
前記フォント置換装置が、外部置換フォントリストから置換すべきフォントの字形度量上最も類似するフォントを検索して補欠フォントとし、置換すべきフォントの置換を行い、補欠フォントと置換不要なフォントを置換後フォントのフォントリソースとするフォント置換ステップと、
前記度量情報抽出装置が、置換後フォントのフォントリソースにより、テキスト断片のキャラクタの字形度量情報を抽出する度量情報抽出ステップと、
前記算出装置が、テキスト断片関連コマンドとキャラクタの字形度量情報からキャラクタの外接矩形を算出する算出ステップと、
を備える、方法。