JP5321109B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP5321109B2 JP5321109B2 JP2009031158A JP2009031158A JP5321109B2 JP 5321109 B2 JP5321109 B2 JP 5321109B2 JP 2009031158 A JP2009031158 A JP 2009031158A JP 2009031158 A JP2009031158 A JP 2009031158A JP 5321109 B2 JP5321109 B2 JP 5321109B2
- Authority
- JP
- Japan
- Prior art keywords
- paragraph
- rectangle
- line
- character
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 35
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 29
- 230000010354 integration Effects 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 description 59
- 238000000034 method Methods 0.000 description 48
- 230000008569 process Effects 0.000 description 41
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 230000006866 deterioration Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
Description
このような電子ドキュメントでは、PC上で、その電子ドキュメントを表示することが行われる。
そして、その電子ドキュメントに記述されているテキスト情報を、操作者の操作に応じてPC上で選択し、コピー&ペースト等の処理が行われる。テキスト情報をPC上で選択する(例えば、電子ドキュメントを表示しているディスプレイ上に表示されているテキスト位置でマウスを左クリックしながらテキスト位置を右に移動させる等の動作でテキスト情報を選択することができる)場合、選択したテキスト位置が反転して、どのテキストを選択しているかを示すようなビューワが存在している。
一方、画像を文字認識して、電子ドキュメントを生成することも行われている。
請求項1の発明は、電子文書内の画素塊を囲む矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出するライン抽出手段と、前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出する段落抽出手段と、前記段落抽出手段によって抽出された段落を統合する段落統合手段と、前記段落統合手段で統合された段落中のラインである行の高さ又は列の幅、及びラインを構成する画素塊の位置に基づいて、該統合された段落内の画素塊を囲む矩形の位置、大きさ及び該矩形と該画素塊との位置関係を算出する矩形算出手段と、前記矩形算出手段によって算出された矩形に関する情報と該矩形内の画素塊を対応付けた文字データを生成する文字データ生成手段を具備し、前記文字データ生成手段は、前記電子文書内に存在する複数の類似している文字の重点を一致させるように位相を移動させて高解像度文字画像を生成し、該高解像度文字画像からフォント・データを生成し、該複数の類似している文字の文字データとして、該フォント・データへのインデックスと、各文字の前記矩形算出手段によって算出された矩形に関する情報との組み合わせを文字データとして生成することを特徴とする情報処理装置である。
例えば、図18に示す例のように「美しい日本」という文字列が表示されている電子ドキュメント1800の「美しい日本」のテキストをPC上で選択すると、図19に示す例のように「美しい日本」の部分が反転して(図19の例に示す選択テキスト1901)、「美しい日本」が選択されたことをユーザに示すことができる。
あるいは、前述のようにテキストを選択した状態で、PC上でコピー&ペーストを行うと、別のファイル上に「美しい日本」というテキスト情報をコピーすることが可能となる。図20に示す例のように、ワードプロセッサ等のような別のアプリケーションファイル(図20の例に示す電子ドキュメント2000)上に、テキスト情報をペーストすることができる。
このように、文字形状を指定するためのフォント情報の文字部分に前述したような画像処理が施された場合に、文字部分の画像処理に応じた適切なフォント情報の更新が行われないと、電子ドキュメントをビューワで閲覧した場合のテキスト情報選択動作の挙動がオリジナルの電子ドキュメントと異なることがある。
例えば図21に示す例のように、「美しい日本」のテキストを選択したことを示す反転矩形形状(図21の例に示す選択テキスト2101から2105)が、図19で示した例のように整った長方形の反転矩形形状にはならず、各文字で矩形が独立し、さらにはその大きさも異なる矩形形状となり、反転矩形形状の品質が低下する。
また、この状態でワードプロセッサ等のような別のアプリケーションファイル(図22の例に示す電子ドキュメント2200)上に、テキスト情報をコピー&ペーストすると、図22に示す例のように「美しい日本」の各文字の文字サイズがばらばらとなり、電子ドキュメントの再利用性(元の文字と同じ大きさ等を再現できない等)が低下する。
これは文字部分の画像処理によりオリジナルのフォント情報に存在した“文字列として選択された場合の形状も考慮した”矩形情報が失われているか、あるいは適切に情報の修正が行われていないことに起因する。
したがって、反転矩形形状を整ったものにするためには、電子ドキュメント内に埋め込む文字矩形情報を適切に修正する必要がある。
本実施の形態によって出力される電子ドキュメントは、フォントファイルとしてフォント情報が埋め込まれており、その文字列を選択した場合における反転矩形形状の品質劣化等が抑制されたものである。
本実施の形態では、電子ドキュメントに埋め込まれるフォント情報内の矩形情報の修正を、文字毎の情報にのみ基づくのではなく、その電子ドキュメント全体から矩形情報の修正に必要な情報を抽出又は算出(段落の抽出、その段落の統合処理等を含む)して、それらに基づいて文字毎の矩形の修正を行うものである。
また、電子ドキュメント内の類似する文字形状データを1つの代表文字形状データで置き換えることを行う場合においても、文字毎の矩形が隣り合う文字同士で揃わない、又は文字位置がずれる等の文書品質劣化を抑制するものである。
(A1)電子ドキュメント内の文字外接矩形情報(その電子ドキュメント内の座標値(絶対座標値又は相対座標値のいずれであってもよい)及び矩形サイズ(例えば、その矩形の高さ、幅の組))から行を抽出する。なお、文字外接矩形情報とは、電子ドキュメント内の文字を囲む矩形(外接矩形)に関する情報である。
(A2)行に関する特徴情報(例えば、行中の全ての文字外接矩形が収まるような最小値、行矩形サイズ、行座標値等)を求める。
(A3)複数の行からなる段落を行に関する特徴情報に基づいて抽出し、その段落に関する特徴を算出する。
(A4)その算出された段落に関する特徴に基づいて、複数の段落を統合する。
(A5)統合された段落に含まれる各行の行に関する特徴情報から矩形高さ及び矩形幅を決定する。
(A6)決定した矩形高さ及び矩形幅に基づいて、文字毎の矩形情報を生成する。また矩形中の文字位置を表す座標値(矩形左上座標からのオフセット値)を算出する。
(A7)さらに文字形状データを参照する索引(文字形状データインデックス)を生成し、矩形情報及び文字位置を表す座標値(オフセット値)と前記文字形状データインデックスをまとめて1つの文字データのセットとする。ここで類似する文字形状データを1つの代表文字形状データで置き換える場合には、前記文字形状データインデックスが代表文字形状データを参照するように文字データを生成する。
(B1)電子ドキュメント内の文字外接矩形情報(その電子ドキュメント内の座標値(絶対座標値又は相対座標値のいずれであってもよい)及び矩形サイズ(例えば、その矩形の高さ、幅の組))から列を抽出する。なお、文字外接矩形情報とは、電子ドキュメント内の文字を囲む矩形(外接矩形)に関する情報である。
(B2)列に関する特徴情報(例えば、列中の全ての文字外接矩形が収まるような最小値、列矩形サイズ、列座標値等)を求める。
(B3)複数の列からなる段落を列に関する特徴情報に基づいて抽出し、その段落に関する特徴を算出する。
(B4)その算出された段落に関する特徴に基づいて、複数の段落を統合する。
(B5)統合された段落に含まれる各列の列に関する特徴情報から矩形高さ及び矩形幅を決定する。
(B6)決定した矩形高さ及び矩形幅に基づいて、文字毎の矩形情報を生成する。また矩形中の文字位置を表す座標値(矩形左上座標からのオフセット値)を算出する。
(B7)さらに文字形状データを参照する索引(文字形状データインデックス)を生成し、矩形情報及び文字位置を表す座標値(オフセット値)と前記文字形状データインデックスをまとめて1つの文字データのセットとする。ここで類似する文字形状データを1つの代表文字形状データで置き換える場合には、前記文字形状データインデックスが代表文字形状データを参照するように文字データを生成する。
また、本実施の形態は、文字矩形情報(文字位置を表すオフセット値を含む)と文字形状データを文字形状データへのインデックス参照という形で分離することにより、代表文字形状データを用いる場合でも矩形が揃わない、又は文字位置がずれる等の文書品質劣化を抑えるようにしたものである。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前であることをいい、本実施の形態による処理が始まる前、本実施の形態による処理が始まった後であっても、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、画素塊とは、4連結又は8連結で連続する画素領域を少なくとも含み、これらの画素領域の集合をも含む。これらの画素領域の集合とは、4連結等で連続した画素領域が複数あり、その複数の画素領域は近傍にあるものをいう。ここで、近傍にあるものとは、例えば、互いの画素領域が距離的に近いもの、文章としての1行から1文字ずつ切り出すように縦又は横方向に射影し、空白地点で切り出した画像領域、又は予め定められた間隔で切り出した画像領域等がある。例えば、文字認識処理を行って、1文字として認識された画像を1つの画素塊としてもよい。
なお、1つの画素塊として、1文字の画像となる場合が多い。本実施の形態では、画素塊のことを文字又は文字画像ともいう。
ライン認識処理モジュール110は、文字情報データ105を受け付ける。ここでいう文字情報データ105とは、電子ドキュメント内の画素塊の矩形に関する情報を少なくとも含む。例えば、前述の文字外接矩形情報、フォント情報であってもよい。また、画素塊に対応している文字の認識順序に関する情報(文字認識装置によって認識順に順序付けられた番号)が含まれていてもよい。例えば、電子ドキュメント中における文字の座標(例えば、文字を囲む外接矩形の左上座標)、文字の大きさを表す外接矩形サイズ(外接矩形の幅、高さ)、文字形状、文字コード、文字の順序情報、縦書き文字なのか横書き文字なのかを表す情報などである。本実施の形態では、これらの文字情報データ105を文字認識装置から受け取った場合について説明する。ただし、文字認識装置に限る必要はなく、文字の外接矩形を受け取って、同等の文字情報データ105を生成するようにしてもよい。
ライン認識処理モジュール110は、図2(a)の例に示すように、注目文字情報データの外接矩形(注目外接矩形212)の左上y座標(upper_y)が、その一つ前の文字情報データの外接矩形(注目外接矩形211)の左下y座標(lower_y)より小さいときは(upper_y<lower_y)、その注目文字情報データの外接矩形(注目外接矩形212)は、注目外接矩形211と同じ行であると認識する。なお、左上を原点(0,0)として、x座標は右方向へ、y座標は下方向へ向かうと数値が増える座標系である。
また、図2(b)の例に示すように、注目文字情報データの外接矩形(注目外接矩形222)の左上y座標(upper_y)が、その一つ前の文字情報データの外接矩形(注目外接矩形221)の左下y座標(lower_y)より大きいときは(lower_y<upper_y)、異なる行であると認識する。
そして、同じライン内にあると認識された文字情報データの列をライン特徴算出モジュール120へ渡す。
なお、受け付けた文字情報データは、文字画像の外接矩形の出現順序(例えば、横書きの場合は、左上から右へ走査し、次の行ではまた左から右へ走査した順番に並んでいる)となっているので、一つ前の文字情報データの外接矩形とは、出現順序で一つ前である。また、外接矩形の左上の座標を用いてソートしてもよい。
ライン認識処理モジュール110は、図3(a)の例に示すように、注目文字情報データの外接矩形(注目外接矩形303)と、その一つ前の文字情報データの外接矩形(外接矩形302)との外接矩形間距離311(以下、現外接矩形間距離ともいう)が、現在処理している行において、既に同一行であると認識された各外接矩形間の距離の平均値(以下、平均外接矩形間距離ともいう)をα倍した値以下である場合は(つまり、現外接矩形間距離≦平均外接矩形間距離×αを満たす場合)、注目外接矩形303は外接矩形302と同じ行であると認識する。なお、αは、ライン認識パラメータであり、予め定められた値である。例えば、文字情報データに応じて定められる。
また、図3(b)の例に示すように、注目文字情報データの外接矩形(注目外接矩形323)と、その一つ前の文字情報データの外接矩形(外接矩形322)との外接矩形間距離331が、現在処理している行における平均外接矩形間距離をα倍した値より大である場合は(現外接矩形間距離>平均外接矩形間距離×α)、注目外接矩形323は外接矩形322とは異なる行であると認識する。
つまり、ライン認識処理モジュール110によって同じ行と認識された文字情報データ列から行高さ、行幅、行外接矩形座標、平均外接矩形間距離などのラインに関する特徴を算出する。
また、行高列幅算出モジュール121は、行高さ(h)を先に求めた行外接矩形座標を用いて、h = max_y − min_y として求める。同様に、行幅(w)を行外接矩形座標を用いて、w = max_x − min_x として求める。これらの行高さ、行幅は、各外接矩形のサイズ(高さ、幅)又はその座標を用いて求める。
また、矩形間距離算出モジュール122は、平均文字外接矩形間距離を、同じ行に属する隣接する文字情報データの外接矩形間距離g0, g1, ……, gnの平均値として求める。また、最大外接矩形間距離max_gを、g0, g1, ……, gnのうちの最大値として求める。なお、リストデータとしてg0, g1, …… , gnのそれぞれの値も保持するようにしてもよい。
ステップS502では、まず初めにライン認識処理モジュール110で認識された行に関して、行外接矩形のy座標値であるmin_y値で昇順にソートする。
ステップS504では、ステップS502でソートされた行を全て探索(ステップS506からステップS514までの処理)したかどうかを判定する。全て探索されていればステップS516に、探索が終了していなければステップS506に処理を移す。
ステップS506では、注目する行(以降は、現探索行ともいう)をソート順に選択する。
ステップS508では、現探索行に関して段落に登録されているかどうかを判定する。現探索行が段落に登録されているならば処理をステップS504に戻し、登録されていなければステップS510に処理を移す。
ステップS512では、現段落に対して現探索行が登録できるかどうかを判定する。現探索行が現段落に登録可能ならば処理をステップS514に移し、登録できないならば処理をステップS504に戻す。なお、ステップS512における現探索行の登録可否処理の詳細は、図7を用いて後で詳しく説明する。
ここで、図6に段落情報の具体的な例を示す。段落情報として、例えば、その段落の位置情報(例えば、左上座標及び右下座標)、段落順序値(その段落を読む際の順序)を含む。段落認識処理モジュール130は、図6の例に示すように、段落に登録されている行情報(登録行情報)を用いて、段落に登録された全ての行の行外接矩形(登録行0 600から登録行8 608)を含む矩形を段落外接矩形610として、その左上座標(min_x, min_y)及び右下座標(max_x, max_y)を算出する。また図6には図示していないが、同一段落に登録された各行のうち、最も行高さが大きい値max_hを算出し、段落代表値とする。同一段落に登録された文字情報データ中で最も小さい文字認識順序の値min_orderを算出し、段落順序値とする。
ステップS518では、全ての行が段落登録されたかを判定する。全ての行がいずれかの段落に登録されていれば段落抽出処理を終了する(ステップS599)。いずれの段落にも登録されていない行がある場合には、処理をステップS504に戻し、次の段落抽出処理を行う。
ステップS702において、現探索行が現段落の段落外接矩形に対して、右又は左にずれているかを判定する。つまり、現探索行の左端が現段落の右端より右にあるか否か、又は現探索行の右端が現段落の左端より左にあるか否かを判定する。例えば、図8(a)の例に示すように、現探索行812が現段落810より右にずれているかどうか、又は図8(b)の例に示すように、現探索行832が現段落830よりも左にずれているかどうかを判定する。現探索行が図8の例のように右あるいは左にずれている場合には、現探索行は現段落に登録せず、図5の例に示したステップS504に処理を戻す。それ以外の場合は、処理をステップS704に移す。
より具体的に説明すると、段落統合処理モジュール140は、段落認識処理モジュール130で認識された段落を、各段落の段落代表値(max_h)を用いて統合する。
ステップS1102において、段落認識処理モジュール130で認識された全ての段落の段落代表値max_hの差分値を算出し、その差分値が最小となる2つの段落を抽出する(このときの差分値を以下では「差分最小値」ともいう)。
ステップS1104において、ステップS1102で算出された差分最小値を予め定めた閾値と比較する。前記差分最小値が予め定めた閾値より大きい場合(ステップS1104でNO)は、これ以上統合すべき段落はないと判断して、段落認識処理モジュール130における段落統合処理を終了する(ステップS1199)。前記差分最小値がある所定の閾値より小さい場合(ステップS1104でYES)は、ステップS1106に処理を移す。
ステップS1108において、ステップS1106において統合された段落の段落代表値max_hを、統合元の2つの段落の段落代表値の大きい方で設定し、処理をステップS1102に戻す。つまり、統合後の段落の段落代表値max_hを、元の段落の段落代表値max_hのうち大きい値とする。
このように段落統合処理モジュール140は、前述したように、ステップS1102で算出する差分最小値がステップS1104において予め定めた閾値より大きくなるまでステップS1102からステップS1108の統合処理を繰り返して段落を統合する。
補正矩形生成モジュール150では、図12の例に示す各補正値を以下のように算出する。
補正矩形高さHには、補正対象の文字情報データが属する統合段落の段落代表値max_hを設定する。
補正矩形幅Wは、左右隣り合った外接矩形間の中心から中心までの距離とする。つまり、注目外接矩形(図12内の現文字外接矩形1220)の左端と左隣の外接矩形(注目外接矩形よりも順序で1つ前の外接矩形、図12内の前文字外接矩形1210)の右端との中心から注目外接矩形(図12内の現文字外接矩形1220)の右端と右隣の外接矩形(注目外接矩形よりも順序で1つ後の外接矩形、図12内の次文字外接矩形1240)の左端との中心までの距離を、補正矩形幅Wとする。
W = (x2+x3−x0−x1)/2 ・・・・・ 式(1)
new_x = (x0+x1)/2
new_y = min_y−(H−h)/2 ・・・・・ 式(2)
ここでmin_yは、補正対象の文字情報データが属する行のy座標の最小値、Hは補正矩形高さ、hは補正前の外接矩形高さである。
shiftx = x1−new_x
shifty = y1−new_y ・・・・・ 式(3)
ここでy1は、現文字外接矩形1220の上端のy座標値である。
補正文字データ生成モジュール160は、文字画像1311、文字画像1312、文字画像1313の重点(中心線1311A等の交差点)を求め、その重点を一致させるように位相を移動して高解像度文字画像1320を生成する。そして、高解像度文字画像1320からフォント・データ1330を生成する。そして、フォント・データ1330、文字コード・データ1340、文字サイズ/文字位置データ1350から補正文字情報データ165を形成する。
補正文字データ生成モジュール160で生成する補正文字情報データ165は、一般的な(標準化された)フォントファイルの仕組みをもって表現してもよい。その場合、補正文字情報データ165は、図16(a)の例に示すように、文字毎に、文字情報データ1の補正矩形データ1610と文字形状データ1へのインデックス1615、文字情報データ2の補正矩形データ1620と文字形状データ1へのインデックス1625をそれぞれ組み合わせ、グリフは共通の代表文字形状データである文字形状データ1 1630を用いている。これによって、電子ドキュメント内にこれら補正文字情報データ165をフォント情報として埋め込んで、その電子ドキュメントを描画する場合に、特有の描画方法や描画装置を用意する必要がなくなる。
なお、数式を用いて説明したが、数式には、その数式と同等のものを含めてもよい。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…ライン認識処理モジュール
120…ライン特徴算出モジュール
121…行高列幅算出モジュール
122…矩形間距離算出モジュール
130…段落認識処理モジュール
140…段落統合処理モジュール
150…補正矩形生成モジュール
160…補正文字データ生成モジュール
165…補正文字情報データ
Claims (10)
- 電子文書内の画素塊を囲む矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出するライン抽出手段と、
前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出する段落抽出手段と、
前記段落抽出手段によって抽出された段落を統合する段落統合手段と、
前記段落統合手段で統合された段落中のラインである行の高さ又は列の幅、及びラインを構成する画素塊の位置に基づいて、該統合された段落内の画素塊を囲む矩形の位置、大きさ及び該矩形と該画素塊との位置関係を算出する矩形算出手段と、
前記矩形算出手段によって算出された矩形に関する情報と該矩形内の画素塊を対応付けた文字データを生成する文字データ生成手段
を具備し、
前記文字データ生成手段は、前記電子文書内に存在する複数の類似している文字の重点を一致させるように位相を移動させて高解像度文字画像を生成し、該高解像度文字画像からフォント・データを生成し、該複数の類似している文字の文字データとして、該フォント・データへのインデックスと、各文字の前記矩形算出手段によって算出された矩形に関する情報との組み合わせを文字データとして生成する
ことを特徴とする情報処理装置。 - 前記電子文書内の画素塊を囲む矩形に関する情報として、該画素塊を囲む矩形の高さ又は幅方向の位置を含み、
前記ライン抽出手段は、前記画素塊の矩形の高さ又は幅方向の位置を用いて、該画素塊を含むラインである各行の高さ又は各列の幅を抽出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記段落抽出手段は、前記ライン抽出手段によって抽出されたラインである各行の高さ又は各列の幅、及び該ラインの高さ又は幅方向の位置を用いて段落を抽出する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記段落抽出手段は、前記ライン抽出手段によって抽出されたラインと、処理対象としている段落との位置関係に基づいて段落を抽出する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記段落抽出手段は、抽出した段落に関する情報として、該段落を囲む外接矩形の位置に関する情報を算出する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。 - 前記段落抽出手段は、同一行又は同一列に属するラインが複数存在する場合には、該ラインを順序付けする
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。 - 前記段落抽出手段は、抽出した段落に関する情報として、該段落に含まれるラインである各行の高さ又は各列の幅を用いて、該段落の代表値を算出し、
前記段落統合手段は、前記段落抽出手段で抽出された段落の代表値を用いて段落を統合する
ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。 - 前記矩形算出手段は、前記段落統合手段によって統合された段落内で、ラインである行の高さ又は列の幅を統一し、画素塊間に隙間が生じないように、該統合された段落内の画素塊を囲む矩形の位置及び大きさを算出する
ことを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。 - 前記矩形算出手段は、前記電子文書内の文字の言語に基づいて、前記画素塊を囲む矩形の大きさを算出する
ことを特徴とする請求項1から8のいずれか一項に記載の情報処理装置。 - コンピュータを、
電子文書内の画素塊を囲む矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出するライン抽出手段と、
前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出する段落抽出手段と、
前記段落抽出手段によって抽出された段落を統合する段落統合手段と、
前記段落統合手段で統合された段落中のラインである行の高さ又は列の幅、及びラインを構成する画素塊の位置に基づいて、該統合された段落内の画素塊を囲む矩形の位置、大きさ及び該矩形と該画素塊との位置関係を算出する矩形算出手段と、
前記矩形算出手段によって算出された矩形に関する情報と該矩形内の画素塊を対応付けた文字データを生成する文字データ生成手段
として機能させ、
前記文字データ生成手段は、前記電子文書内に存在する複数の類似している文字の重点を一致させるように位相を移動させて高解像度文字画像を生成し、該高解像度文字画像からフォント・データを生成し、該複数の類似している文字の文字データとして、該フォント・データへのインデックスと、各文字の前記矩形算出手段によって算出された矩形に関する情報との組み合わせを文字データとして生成する
ことを特徴とする情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031158A JP5321109B2 (ja) | 2009-02-13 | 2009-02-13 | 情報処理装置及び情報処理プログラム |
US12/510,656 US20100211871A1 (en) | 2009-02-13 | 2009-07-28 | Information processor, information processing method, and computer readable medium |
CN200910167109.3A CN101807179B (zh) | 2009-02-13 | 2009-08-18 | 信息处理器以及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031158A JP5321109B2 (ja) | 2009-02-13 | 2009-02-13 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010186389A JP2010186389A (ja) | 2010-08-26 |
JP5321109B2 true JP5321109B2 (ja) | 2013-10-23 |
Family
ID=42560950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009031158A Expired - Fee Related JP5321109B2 (ja) | 2009-02-13 | 2009-02-13 | 情報処理装置及び情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100211871A1 (ja) |
JP (1) | JP5321109B2 (ja) |
CN (1) | CN101807179B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8887038B2 (en) * | 2010-10-08 | 2014-11-11 | Business Objects Software Limited | Extrapolating tabular structure in a freeform document |
JP5812702B2 (ja) * | 2011-06-08 | 2015-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文字の読み順を決定するための読み順決定装置、方法及びプログラム |
US9489121B2 (en) * | 2011-11-02 | 2016-11-08 | Microsoft Technology Licensing, Llc | Optimal display and zoom of objects and text in a document |
JP6614914B2 (ja) * | 2015-10-27 | 2019-12-04 | 株式会社東芝 | 画像処理装置、画像処理方法及び画像処理プログラム |
CN105373791B (zh) * | 2015-11-12 | 2018-12-14 | 中国建设银行股份有限公司 | 信息处理方法及信息处理装置 |
CN107203784B (zh) * | 2017-05-24 | 2020-06-12 | 南京秦淮紫云创益企业服务有限公司 | 一种相似度计算方法、终端及计算机可读存储介质 |
CN109062871B (zh) * | 2018-07-03 | 2022-05-13 | 北京明略软件系统有限公司 | 一种文本标注方法和装置、计算机可读存储介质 |
CN109934210B (zh) * | 2019-05-17 | 2019-08-09 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路和介质 |
CN109934209B (zh) * | 2019-05-17 | 2019-07-30 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路及介质 |
US11367296B2 (en) * | 2020-07-13 | 2022-06-21 | NextVPU (Shanghai) Co., Ltd. | Layout analysis |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2623844B2 (ja) * | 1989-07-31 | 1997-06-25 | 日本電気株式会社 | 文字行抽出装置 |
DE69132789T2 (de) * | 1990-05-14 | 2002-05-23 | Canon Kk | Verfahren und Gerät zur Bildverarbeitung |
US6212299B1 (en) * | 1992-12-11 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing a character |
JPH06214983A (ja) * | 1993-01-20 | 1994-08-05 | Kokusai Denshin Denwa Co Ltd <Kdd> | 文書画像の論理構造化文書への変換方法および装置 |
GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
US5577135A (en) * | 1994-03-01 | 1996-11-19 | Apple Computer, Inc. | Handwriting signal processing front-end for handwriting recognizers |
US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US5930813A (en) * | 1995-12-21 | 1999-07-27 | Adobe Systems Incorporated | Method and system for designating objects |
US6188790B1 (en) * | 1996-02-29 | 2001-02-13 | Tottori Sanyo Electric Ltd. | Method and apparatus for pre-recognition character processing |
JP3099797B2 (ja) * | 1998-03-19 | 2000-10-16 | 日本電気株式会社 | 文字認識装置 |
JP4416890B2 (ja) * | 1999-12-20 | 2010-02-17 | 富士通株式会社 | 帳票識別装置 |
US6948119B1 (en) * | 2000-09-27 | 2005-09-20 | Adobe Systems Incorporated | Automated paragraph layout |
US6741745B2 (en) * | 2000-12-18 | 2004-05-25 | Xerox Corporation | Method and apparatus for formatting OCR text |
US6801673B2 (en) * | 2001-10-09 | 2004-10-05 | Hewlett-Packard Development Company, L.P. | Section extraction tool for PDF documents |
JP2003308314A (ja) * | 2002-02-15 | 2003-10-31 | Ricoh Co Ltd | 文書作成支援装置 |
US7392472B2 (en) * | 2002-04-25 | 2008-06-24 | Microsoft Corporation | Layout analysis |
US7310769B1 (en) * | 2003-03-12 | 2007-12-18 | Adobe Systems Incorporated | Text encoding using dummy font |
US8913833B2 (en) * | 2006-05-08 | 2014-12-16 | Fuji Xerox Co., Ltd. | Image processing apparatus, image enlarging apparatus, image coding apparatus, image decoding apparatus, image processing system and medium storing program |
JP5041141B2 (ja) * | 2006-05-08 | 2012-10-03 | 富士ゼロックス株式会社 | 画像処理装置、画像拡大装置、画像符号化装置、画像復号化装置、画像処理システム及びプログラム |
US7646921B2 (en) * | 2006-09-11 | 2010-01-12 | Google Inc. | High resolution replication of document based on shape clustering |
US7650035B2 (en) * | 2006-09-11 | 2010-01-19 | Google Inc. | Optical character recognition based on shape clustering and multiple optical character recognition processes |
JP4123299B1 (ja) * | 2007-02-21 | 2008-07-23 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US7870502B2 (en) * | 2007-05-29 | 2011-01-11 | Microsoft Corporation | Retaining style information when copying content |
US8065321B2 (en) * | 2007-06-20 | 2011-11-22 | Ricoh Company, Ltd. | Apparatus and method of searching document data |
JP5123588B2 (ja) * | 2007-07-17 | 2013-01-23 | キヤノン株式会社 | 表示制御装置および表示制御方法 |
US8539342B1 (en) * | 2008-10-16 | 2013-09-17 | Adobe Systems Incorporated | Read-order inference via content sorting |
-
2009
- 2009-02-13 JP JP2009031158A patent/JP5321109B2/ja not_active Expired - Fee Related
- 2009-07-28 US US12/510,656 patent/US20100211871A1/en not_active Abandoned
- 2009-08-18 CN CN200910167109.3A patent/CN101807179B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101807179B (zh) | 2015-06-03 |
CN101807179A (zh) | 2010-08-18 |
JP2010186389A (ja) | 2010-08-26 |
US20100211871A1 (en) | 2010-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5321109B2 (ja) | 情報処理装置及び情報処理プログラム | |
US8824798B2 (en) | Information processing device, computer readable medium storing information processing program, and information processing method | |
JP4539756B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP4623169B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2006295606A (ja) | 画像処理装置及びその方法、プログラム並びに記憶媒体 | |
JP2009251872A (ja) | 情報処理装置及び情報処理プログラム | |
US10924620B2 (en) | Document reading guidance for operator using feature amount acquired from image of partial area of document | |
JP2009223477A (ja) | 情報処理装置及び情報処理プログラム | |
JP6221220B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5062076B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2010176414A (ja) | 画像処理装置及び画像処理プログラム | |
JP5923981B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2012175220A (ja) | 画像処理装置及び画像処理プログラム | |
JP5476884B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5723803B2 (ja) | 画像処理装置及びプログラム | |
JP2012098852A (ja) | 画像処理装置及び画像処理プログラム | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5194851B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2008113145A (ja) | 画像処理装置及び画像処理プログラム | |
JP4900271B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2011100252A (ja) | 画像処理装置及び画像処理プログラム | |
JP5434273B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5434272B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6606885B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5531661B2 (ja) | 画像処理装置及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5321109 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |