JPH06214983A - 文書画像の論理構造化文書への変換方法および装置 - Google Patents
文書画像の論理構造化文書への変換方法および装置Info
- Publication number
- JPH06214983A JPH06214983A JP5023480A JP2348093A JPH06214983A JP H06214983 A JPH06214983 A JP H06214983A JP 5023480 A JP5023480 A JP 5023480A JP 2348093 A JP2348093 A JP 2348093A JP H06214983 A JPH06214983 A JP H06214983A
- Authority
- JP
- Japan
- Prior art keywords
- document
- logical
- page
- column
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 黒白2値画像で表現される複数の文書画像
を、章・節・文章段落・図等に分けられた論理構造を持
つ文書に変換する。 【構成】 複数の文書画像から、互いに近接した領域を
抽出し大まかなレイアウトを解析し、文書画像のヘッダ
/フッタ領域を抽出しページ番号部および共通コンテン
ト部を識別し、各ページのカラム領域の内のブロックの
構築を行い、論理構造を識別するための節番号部解析を
行い、各節内の表示属性の解析を行い文章の段落分けを
行い、カラム/ページ末の文章段落とそれに続くカラム
/ページ先頭の文章段落に注目し表示属性がほぼ等しけ
ればマージを行い文書の論理構造を完成することができ
る。文書画像を、論理構造を持つ文書に変換することに
よって、論理構造をベースとする編集や検索等の処理可
能な形式とする。
を、章・節・文章段落・図等に分けられた論理構造を持
つ文書に変換する。 【構成】 複数の文書画像から、互いに近接した領域を
抽出し大まかなレイアウトを解析し、文書画像のヘッダ
/フッタ領域を抽出しページ番号部および共通コンテン
ト部を識別し、各ページのカラム領域の内のブロックの
構築を行い、論理構造を識別するための節番号部解析を
行い、各節内の表示属性の解析を行い文章の段落分けを
行い、カラム/ページ末の文章段落とそれに続くカラム
/ページ先頭の文章段落に注目し表示属性がほぼ等しけ
ればマージを行い文書の論理構造を完成することができ
る。文書画像を、論理構造を持つ文書に変換することに
よって、論理構造をベースとする編集や検索等の処理可
能な形式とする。
Description
【0001】
【産業上の利用分野】オフィスにおいては、ワープロ等
を用いた電子化文書の作成が一般化し、文字画像、図形
など複数のメディアを含んだマルチメディア文書の普及
が進んでいる。また、これらの文書を効率的に作成し、
国際的に交換可能とするためのオフィス文書規格とし
て、開放型文書体系ODAの標準化が進められている。
一方、オフィスにおける膨大な量の紙文書の存在やファ
クシミリ等の画像文書の多用は無視できない事実であ
り、これらの文書画像を計算機処理し適当なマルチメデ
ィア文書へと変換する技術が文書リソースの有効利用、
ユーザインタフェースの向上等の観点から求められてい
る。また、通信の分野においても、このような技術は、
電子図書館、遠隔文書検索といった具体的なアプリケー
ションの構成要素として認識されており、その確立が待
望されている。
を用いた電子化文書の作成が一般化し、文字画像、図形
など複数のメディアを含んだマルチメディア文書の普及
が進んでいる。また、これらの文書を効率的に作成し、
国際的に交換可能とするためのオフィス文書規格とし
て、開放型文書体系ODAの標準化が進められている。
一方、オフィスにおける膨大な量の紙文書の存在やファ
クシミリ等の画像文書の多用は無視できない事実であ
り、これらの文書画像を計算機処理し適当なマルチメデ
ィア文書へと変換する技術が文書リソースの有効利用、
ユーザインタフェースの向上等の観点から求められてい
る。また、通信の分野においても、このような技術は、
電子図書館、遠隔文書検索といった具体的なアプリケー
ションの構成要素として認識されており、その確立が待
望されている。
【0002】本発明は、オフィスや通信で利用される文
書画像処理、特に文書画像から論理構造化文書を得る方
式に関するものである。
書画像処理、特に文書画像から論理構造化文書を得る方
式に関するものである。
【0003】
【従来技術】オフィスにおける膨大な量の紙文書等を有
効利用するために、これらをスキャナと呼ばれる機器を
用いて計算機に入力し、処理可能な形式に変換する方式
がある。本技術は文書画像処理と呼ばれ、従来、文字認
識や図形認識等のメディア変換や文書画像のレイアウト
解析を行う方式がある。文書画像処理では、文書画像に
含まれるカラム、図、表、文字行、文字などの要素を分
離・抽出し、構造化を行うことによって、検索などの処
理が可能となる。文書画像のレイアウト解析の方式とし
ては、黒画素に注目したランレングス平滑法(K.Y.
Wong,R.G.Casey and F.M.Wa
hl:“Document Analysis Sys
tem”,IBM J.Res.& Dev.,26,
6(1982))、黒画素の拡大・縮退法(中村,氏
家,岡本,南:“ミックスモード通信のための文字領域
の抽出アルゴリズム”,信学論(D),J67−D(1
984))、黒画素の連結成分の境界追跡により領域抽
出を行う連結法(山田,宮里,蓮池:“マルチメディア
文書構造処理システム”画像電子学会誌,Vol19,
No5(1990))、周辺分布等に基づいて統計処理
を行う領域分割法などの文書要素抽出に関するもの(辻
:“スプリット検出法による文書画像構造解析”,信
学論(D),J74−D−II,4(1991))、書
式定義言語を用いるもの(中野,藤沢:“自動ファイリ
ングのための文書理解の一方式”,信学論(D),J7
1−D,10(1988))、モデルベースのアプロー
チ(山下,天野:“モデルに基づいた文書画像のレイア
ウト理解”,信学論(D),J75−D−II,10
(1992))などがある。
効利用するために、これらをスキャナと呼ばれる機器を
用いて計算機に入力し、処理可能な形式に変換する方式
がある。本技術は文書画像処理と呼ばれ、従来、文字認
識や図形認識等のメディア変換や文書画像のレイアウト
解析を行う方式がある。文書画像処理では、文書画像に
含まれるカラム、図、表、文字行、文字などの要素を分
離・抽出し、構造化を行うことによって、検索などの処
理が可能となる。文書画像のレイアウト解析の方式とし
ては、黒画素に注目したランレングス平滑法(K.Y.
Wong,R.G.Casey and F.M.Wa
hl:“Document Analysis Sys
tem”,IBM J.Res.& Dev.,26,
6(1982))、黒画素の拡大・縮退法(中村,氏
家,岡本,南:“ミックスモード通信のための文字領域
の抽出アルゴリズム”,信学論(D),J67−D(1
984))、黒画素の連結成分の境界追跡により領域抽
出を行う連結法(山田,宮里,蓮池:“マルチメディア
文書構造処理システム”画像電子学会誌,Vol19,
No5(1990))、周辺分布等に基づいて統計処理
を行う領域分割法などの文書要素抽出に関するもの(辻
:“スプリット検出法による文書画像構造解析”,信
学論(D),J74−D−II,4(1991))、書
式定義言語を用いるもの(中野,藤沢:“自動ファイリ
ングのための文書理解の一方式”,信学論(D),J7
1−D,10(1988))、モデルベースのアプロー
チ(山下,天野:“モデルに基づいた文書画像のレイア
ウト理解”,信学論(D),J75−D−II,10
(1992))などがある。
【0004】
【発明が解決しようとする課題】しかしながら、これら
は、文書の要素をレイアウトベース(すなわち、ページ
やカラム、ブロックといった単位)で分離・抽出したも
のであり、人間により近い論理的な文書要素(すなわ
ち、章・節・段落といった単位)の抽出は実現していな
いという問題がある。また近年CCITTやISOで標
準化が進められている文書アーキテクチャODA(開放
型文書体系)やマークアップ言語標準SGMLでは、文
書のレイアウト要素と論理要素を明確に区別し、文書の
編集/作成という観点から、むしろ論理構造に重点をお
いているのが特徴である。このため、これら論理構造化
文書ベースの編集・検索のアプリケーションを想定した
場合、文書画像からの論理構造の抽出・認識技術が必要
である。
は、文書の要素をレイアウトベース(すなわち、ページ
やカラム、ブロックといった単位)で分離・抽出したも
のであり、人間により近い論理的な文書要素(すなわ
ち、章・節・段落といった単位)の抽出は実現していな
いという問題がある。また近年CCITTやISOで標
準化が進められている文書アーキテクチャODA(開放
型文書体系)やマークアップ言語標準SGMLでは、文
書のレイアウト要素と論理要素を明確に区別し、文書の
編集/作成という観点から、むしろ論理構造に重点をお
いているのが特徴である。このため、これら論理構造化
文書ベースの編集・検索のアプリケーションを想定した
場合、文書画像からの論理構造の抽出・認識技術が必要
である。
【0005】本発明は、上述した従来技術の問題点を解
決するためになされたものであり、対象となる黒白2値
画像で表現される複数の 文書画像を、章・節・文章段
落・図等に分けられた構造を持つ文書に変換する方法お
よび装置を提供することを目的とする。
決するためになされたものであり、対象となる黒白2値
画像で表現される複数の 文書画像を、章・節・文章段
落・図等に分けられた構造を持つ文書に変換する方法お
よび装置を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は、文書画像のカ
ラム抽出やブロック抽出によって実現されるレイアウト
解析に加え、文書画像のヘッダ/フッタ領域を抽出しペ
ージ番号部、共通コンテント部を識別し、各ページのカ
ラム領域の確定を行いカラム内のブロックの構築を行
い、論理構造を識別するための節番号部解析を行い、各
節内の表示属性の解析を行い文章の段落分けを行い、カ
ラム/ページ末の文章段落とそれに続くカラム/ページ
先頭の文章段落に注目し表示属性がほぼ等しければマー
ジを行うことによって、文書の論理構造を完成する。
ラム抽出やブロック抽出によって実現されるレイアウト
解析に加え、文書画像のヘッダ/フッタ領域を抽出しペ
ージ番号部、共通コンテント部を識別し、各ページのカ
ラム領域の確定を行いカラム内のブロックの構築を行
い、論理構造を識別するための節番号部解析を行い、各
節内の表示属性の解析を行い文章の段落分けを行い、カ
ラム/ページ末の文章段落とそれに続くカラム/ページ
先頭の文章段落に注目し表示属性がほぼ等しければマー
ジを行うことによって、文書の論理構造を完成する。
【0007】
【実施例】以下、図面により本発明の実施例を詳細に説
明する。図1は本発明による文書画像/論理構造化文書
変換方式の構成図である。
明する。図1は本発明による文書画像/論理構造化文書
変換方式の構成図である。
【0008】図1に示すように、本実施例の構成は、レ
クタングル生成部1、文字認識部2、ヘッダ/フッタ解
析部3、仮ブロック生成部4、カラム確定部5、ブロッ
ク構築部6、節番号解析部7、表示属性解析部8、論理
構造生成部9を有する。スキャナによって入力される複
数ページを持つ文書画像Iiは、同一で有限の大きさを
もつ2次元の白黒2値画像とし、以下に述べるような論
理的特性およびレイアウト的な特性を保持する文書を表
現するものとする。
クタングル生成部1、文字認識部2、ヘッダ/フッタ解
析部3、仮ブロック生成部4、カラム確定部5、ブロッ
ク構築部6、節番号解析部7、表示属性解析部8、論理
構造生成部9を有する。スキャナによって入力される複
数ページを持つ文書画像Iiは、同一で有限の大きさを
もつ2次元の白黒2値画像とし、以下に述べるような論
理的特性およびレイアウト的な特性を保持する文書を表
現するものとする。
【0009】図2はこれを示したもので、各ノード中の
記号は、大文字3文字で構成要素名(タイプ)を表わし
ている。
記号は、大文字3文字で構成要素名(タイプ)を表わし
ている。
【0010】(1)論理特性 1)論理ルート下に唯一存在するパッセージは、パラグ
ラフ、テキスト、ラスタ(図)の組み合わせからなる前
段(タイトル)部と番号付き節の後段部から構成され
る。
ラフ、テキスト、ラスタ(図)の組み合わせからなる前
段(タイトル)部と番号付き節の後段部から構成され
る。
【0011】2)パラグラフは、テキスト、ラスタの他
に、脚注を下位要素として持つことができる。
に、脚注を下位要素として持つことができる。
【0012】3)番号付き節は、節番号、パラグラフ、
テキスト、ラスタおよび子供の番号付き節を再帰的に下
位要素として持つことができる。
テキスト、ラスタおよび子供の番号付き節を再帰的に下
位要素として持つことができる。
【0013】4)脚注は、図2に示すようにその子孫と
して、脚注リファレンス、脚注ボディ、脚注番号、脚注
テキストを持つ。
して、脚注リファレンス、脚注ボディ、脚注番号、脚注
テキストを持つ。
【0014】5)ページ番号を下位要素として持つ共通
論理部が、独立して(複数個)存在する。
論理部が、独立して(複数個)存在する。
【0015】6)テキストとラスタが代表的な最下位論
理オブジェクトであり、内容部を持つ。
理オブジェクトであり、内容部を持つ。
【0016】(2)レイアウト特性 1)レイアウトルート下に唯一存在するページセット
は、第1ページ、表ページ、裏ページの組み合わせによ
る5種類のパターンで表現される(例えば、表/裏ペー
ジ見開きの繰返し等)。
は、第1ページ、表ページ、裏ページの組み合わせによ
る5種類のパターンで表現される(例えば、表/裏ペー
ジ見開きの繰返し等)。
【0017】2)各ページは、領域としては互いに重畳
しないヘッダ、ボディ、フッタフレームを下位要素とし
て持つ。ページは、いわゆるポートレイトタイプ(縦
長)とし、ヘッダがその上部、フッタが下部、ボディ
が、それらの間にレイアウトされるものとする。
しないヘッダ、ボディ、フッタフレームを下位要素とし
て持つ。ページは、いわゆるポートレイトタイプ(縦
長)とし、ヘッダがその上部、フッタが下部、ボディ
が、それらの間にレイアウトされるものとする。
【0018】3)ボディフレームは、打ち抜きカラム用
のフロートフレーム、マルチカラム用のマルチカラムフ
レーム、脚注用の脚注フレームの組み合わせを下位要素
として持つ。ボディフレームは、これらの下位フレーム
によって横方向のみに分割される。脚注フレームがある
場合には、各ボディフレームの最下部にレイアウトされ
る。
のフロートフレーム、マルチカラム用のマルチカラムフ
レーム、脚注用の脚注フレームの組み合わせを下位要素
として持つ。ボディフレームは、これらの下位フレーム
によって横方向のみに分割される。脚注フレームがある
場合には、各ボディフレームの最下部にレイアウトされ
る。
【0019】4)マルチカラムフレームは、下位要素と
して任意の段数のカラムフレームを持つ。但し、1つの
文書中では1種類の段数とする。
して任意の段数のカラムフレームを持つ。但し、1つの
文書中では1種類の段数とする。
【0020】5)ヘッダおよびフッタフレームは、ペー
ジ番号フレームと共通コンテントフレームの組み合わせ
を下位要素として持つ。また、共通コンテントフレーム
中の共通ブロックが、共通コンテントを保持する。
ジ番号フレームと共通コンテントフレームの組み合わせ
を下位要素として持つ。また、共通コンテントフレーム
中の共通ブロックが、共通コンテントを保持する。
【0021】6)各最下位フレーム中には、レイアウト
処理によってブロックが生成され、上から下へとレイア
ウトされる。また、文字ブロックにおいては、横書きの
文字行が上から下へと置かれるものとする。
処理によってブロックが生成され、上から下へとレイア
ウトされる。また、文字ブロックにおいては、横書きの
文字行が上から下へと置かれるものとする。
【0022】レクタングル生成部1は、文書画像からレ
クタングルと呼ぶ基本矩形(文字行や図に対応)を抽出
し、文字認識部2、ヘッダ/フッタ解析部3、仮ブロッ
ク生成部4にレクタングルデータRiを送る。入力され
る文書画像Iiの座標系は、左上を原点とし、左から右
へX軸、上から下へY軸とし、各ページ毎に以下の処理
を行う。
クタングルと呼ぶ基本矩形(文字行や図に対応)を抽出
し、文字認識部2、ヘッダ/フッタ解析部3、仮ブロッ
ク生成部4にレクタングルデータRiを送る。入力され
る文書画像Iiの座標系は、左上を原点とし、左から右
へX軸、上から下へY軸とし、各ページ毎に以下の処理
を行う。
【0023】(1)白黒2値で表現された入力文書画像
Iiのすべての黒画素(Xi,Yi)に対して公知の画
像処理技術である拡大処理を行う。すなわち、Xi−r
≦X≦Xi+r,Y=Yi(rは拡大範囲を示す)を満
たすIi上の画素(X,Y)を黒画素に変換する。結果
として生成される画像をIi’とする。
Iiのすべての黒画素(Xi,Yi)に対して公知の画
像処理技術である拡大処理を行う。すなわち、Xi−r
≦X≦Xi+r,Y=Yi(rは拡大範囲を示す)を満
たすIi上の画素(X,Y)を黒画素に変換する。結果
として生成される画像をIi’とする。
【0024】(2)次にIi’に対して、公知の画像処
理技術を用いて黒画素の各連結成分の境界追跡を行い、
抽出された連結成分を囲む最小矩形をレクタングルデー
タRiとする。各レクタングルデータは抽出された画像
データおよびレクタングルの座標値およびレクタングル
の高さに応じて決定した種別(セパレータ、文字列、画
像/図形)を、本段階で保持する。
理技術を用いて黒画素の各連結成分の境界追跡を行い、
抽出された連結成分を囲む最小矩形をレクタングルデー
タRiとする。各レクタングルデータは抽出された画像
データおよびレクタングルの座標値およびレクタングル
の高さに応じて決定した種別(セパレータ、文字列、画
像/図形)を、本段階で保持する。
【0025】(3)各レクタングルは、左上点のy座標
で昇順にソートしリンクリストとする。
で昇順にソートしリンクリストとする。
【0026】文字認識部2は、公知の文字認識技術を用
いてレクタングル毎の文字認識を行い、文字コード列C
iをレクタングル生成部1に返してやる。
いてレクタングル毎の文字認識を行い、文字コード列C
iをレクタングル生成部1に返してやる。
【0027】ヘッダ/フッタ解析部3は、レクタングル
生成部1で抽出されたレクタングルデータのうち、各ペ
ージの文字レクタングルのリンクリストのヘッダ部候補
として最初のN個、またフッタ部候補として最後のN個
を対象レクタングルRi’として、以下処理を行い、ペ
ージ番号部および共通コンテント部の解析結果およびペ
ージセットタイプの認識結果をデータHFiとして出力
する。
生成部1で抽出されたレクタングルデータのうち、各ペ
ージの文字レクタングルのリンクリストのヘッダ部候補
として最初のN個、またフッタ部候補として最後のN個
を対象レクタングルRi’として、以下処理を行い、ペ
ージ番号部および共通コンテント部の解析結果およびペ
ージセットタイプの認識結果をデータHFiとして出力
する。
【0028】ここで、ページ番号部は、<Prefix
><Page−Num><Suffix>(但し、<P
refix>および<Suffix>はオプショナル)
という形式を持ち、<Page−Num>は任意の数字
列、また、<Prefix>および<Suffix>に
ついては許されるパターンをあらかじめ登録しておくも
のとする(例:<Prefix>={Page, P,
page, pp,p, −, <, (, [,
ページ, ー})。
><Page−Num><Suffix>(但し、<P
refix>および<Suffix>はオプショナル)
という形式を持ち、<Page−Num>は任意の数字
列、また、<Prefix>および<Suffix>に
ついては許されるパターンをあらかじめ登録しておくも
のとする(例:<Prefix>={Page, P,
page, pp,p, −, <, (, [,
ページ, ー})。
【0029】なお、以下の処理において、マッチング方
法としては、公知の文字マッチング技術であるDP法に
よる可変長文字列マッチング(高橋:“テキスト検索プ
ロセッサ”,電子情報通信学会(1991))を用い
る。
法としては、公知の文字マッチング技術であるDP法に
よる可変長文字列マッチング(高橋:“テキスト検索プ
ロセッサ”,電子情報通信学会(1991))を用い
る。
【0030】(1)ページ番号部抽出処理 1)1ページ目から後方ページへ上述したページ番号部
のパターンを内容として含むレクタングルを探し、これ
を始点pnra=<prea><sa><sufa>
(但し、pnraはページpに属する)とする。
のパターンを内容として含むレクタングルを探し、これ
を始点pnra=<prea><sa><sufa>
(但し、pnraはページpに属する)とする。
【0031】2)他のページqの対象レクタングルのパ
ターンpnrbに対して、pnraをページ変化分だけ
修正したpnra’とのマッチング処理を行う。すなわ
ち、数字列saが表す数字na(整数)に対し、pnr
bとpnraが属するページの差分を加えた値na+
(p−q)を計算し、その数字を表す数字列sa’を含
むpnra’=<prea><sa’><sufa>と
pnrbのマッチングが成功した場合、pnrbをpn
raと同一のページ番号部と識別する。本処理はすべて
のページの対象レクタングルに対して行う。
ターンpnrbに対して、pnraをページ変化分だけ
修正したpnra’とのマッチング処理を行う。すなわ
ち、数字列saが表す数字na(整数)に対し、pnr
bとpnraが属するページの差分を加えた値na+
(p−q)を計算し、その数字を表す数字列sa’を含
むpnra’=<prea><sa’><sufa>と
pnrbのマッチングが成功した場合、pnrbをpn
raと同一のページ番号部と識別する。本処理はすべて
のページの対象レクタングルに対して行う。
【0032】3)マッチングが成功したページ番号部の
セットよりページ番号初期値を計算する。
セットよりページ番号初期値を計算する。
【0033】(2)共通コンテント部抽出 1)ページ番号部と認識されたレクタングルを除く任意
のレクタングルを始点として、順次他のページのレクタ
ングルが含む文字列に対しマッチング処理を行い、評価
点がある値以上の場合共通コンテント部とみなす。但し
3ページ以下の文書では本処理でヘッダ/フッタ部が識
別できない場合もあるため、この場合、仮ブロック生成
部4で対応する。
のレクタングルを始点として、順次他のページのレクタ
ングルが含む文字列に対しマッチング処理を行い、評価
点がある値以上の場合共通コンテント部とみなす。但し
3ページ以下の文書では本処理でヘッダ/フッタ部が識
別できない場合もあるため、この場合、仮ブロック生成
部4で対応する。
【0034】2)各共通コンテントcciの文字数を測
定し、すべて一致する場合には多数決によって各文字を
確定する。文字数が一致しない場合は、多数決によって
文字数を決定し、これに合致するcciのみで多数決に
よる各文字の確定を行う。
定し、すべて一致する場合には多数決によって各文字を
確定する。文字数が一致しない場合は、多数決によって
文字数を決定し、これに合致するcciのみで多数決に
よる各文字の確定を行う。
【0035】(3)ページセットタイプの推定 共通コンテント部およびページ番号部の配置よりページ
セットタイプの認識を行う。
セットタイプの認識を行う。
【0036】(4)ヘッダ/フッタ部解析結果HFiの
作成 ヘッダ/フッタ部と認識されたレクタングルは、上下方
向にマージできるものを集めて、ページセットが含む各
ページのヘッダフレーム、フッタフレーム、ページ番号
フレーム、共通コンテントフレーム、共通ブロック、共
通コンテント、ページ番号として出力する。なお、ヘッ
ダ/フッタフレーム内に存在するレクタングルはリンク
リストから除外する。
作成 ヘッダ/フッタ部と認識されたレクタングルは、上下方
向にマージできるものを集めて、ページセットが含む各
ページのヘッダフレーム、フッタフレーム、ページ番号
フレーム、共通コンテントフレーム、共通ブロック、共
通コンテント、ページ番号として出力する。なお、ヘッ
ダ/フッタフレーム内に存在するレクタングルはリンク
リストから除外する。
【0037】仮ブロック生成部4は、ヘッダ/フッタ解
析部で処理されたものを除くレクタングルデータRiを
対象として、以下のような仮ブロック生成処理をページ
単位で行う。仮ブロックはページを構成するカラムタイ
プを求めるための仮想的な矩形領域であり、属するすべ
てのレクタングルrectを含む最小矩形で表せられ
る。
析部で処理されたものを除くレクタングルデータRiを
対象として、以下のような仮ブロック生成処理をページ
単位で行う。仮ブロックはページを構成するカラムタイ
プを求めるための仮想的な矩形領域であり、属するすべ
てのレクタングルrectを含む最小矩形で表せられ
る。
【0038】(1)i=1, x=1とする。
【0039】(2)rectiは仮ブロックBxに属す
るものとし、ブロックidを記録する(処理済みレクタ
ングル)。
るものとし、ブロックidを記録する(処理済みレクタ
ングル)。
【0040】(3)rectiに対して、次の条件を満
たす未処理レクタングルrectj(j>i)を順次探
索し、発見できた場合にはrectjはrectiと同
一の仮ブロックに属すると判断し、i=jとして(2)
に戻る。また、このようなrectjが発見できない場
合は、仮ブロックBxは確定仮ブロックとし、(4)へ
進む。
たす未処理レクタングルrectj(j>i)を順次探
索し、発見できた場合にはrectjはrectiと同
一の仮ブロックに属すると判断し、i=jとして(2)
に戻る。また、このようなrectjが発見できない場
合は、仮ブロックBxは確定仮ブロックとし、(4)へ
進む。
【0041】[条件1] :recti.left≦
rectj.right かつrecti.righ
t≧rectj.left
rectj.right かつrecti.righ
t≧rectj.left
【0042】[条件2] :rectj.top−r
ecti.bottom ≧Ths (Thsはセパレーション閾値)
ecti.bottom ≧Ths (Thsはセパレーション閾値)
【0043】[条件3] :rectjも含めた場合
にできる仮ブロックが既に確定済みの他の仮ブロックと
重畳しない。
にできる仮ブロックが既に確定済みの他の仮ブロックと
重畳しない。
【0044】[条件4] :rectjも含めた場合
にできる仮ブロックが未処理の他のレクタングルと重畳
しない。
にできる仮ブロックが未処理の他のレクタングルと重畳
しない。
【0045】ここで、left、right、top、
bottomは、それぞれ、レクタングルの左辺、右
辺、上辺、下辺の座標を表す。
bottomは、それぞれ、レクタングルの左辺、右
辺、上辺、下辺の座標を表す。
【0046】(4)x=x+1、rectiはリンクリ
スト中の最初の未処理レクタングルとし、(2)へ戻
る。
スト中の最初の未処理レクタングルとし、(2)へ戻
る。
【0047】上の処理をすべてのレクタングルを処理す
るまで繰り返す。
るまで繰り返す。
【0048】ヘッダ/フッタ部が確定していない3ペー
ジ以下の文書の場合で、各ページの最上部/最下部にT
hn個以下のレクタングルを含む仮ブロックが存在すれ
ば、それぞれヘッダ/フッタ部(共通コンテントまたは
ページ番号)とみなす処理を行い、データHFiとして
出力する。
ジ以下の文書の場合で、各ページの最上部/最下部にT
hn個以下のレクタングルを含む仮ブロックが存在すれ
ば、それぞれヘッダ/フッタ部(共通コンテントまたは
ページ番号)とみなす処理を行い、データHFiとして
出力する。
【0049】カラム確定部5は、左上点y座標でソート
された仮ブロックデータABiに対して、X−Y軸への
投影手法を用いた処理をページ毎に適用し、カラム種別
の確定を行い、含まれるブロックデータの順序を決定す
るためのカラムデータCLiを、ブロック構築部6に送
る。図3に、カラム確定処理の様子を示す。
された仮ブロックデータABiに対して、X−Y軸への
投影手法を用いた処理をページ毎に適用し、カラム種別
の確定を行い、含まれるブロックデータの順序を決定す
るためのカラムデータCLiを、ブロック構築部6に送
る。図3に、カラム確定処理の様子を示す。
【0050】(1)図3に示すように、各ABiのY軸
上への投影をとり、互いに重なりあうものをマージした
投影をPyj=(ysj,yej)(j=1,…,M)
とする。ここでABiの投影がPyjに含まれる場合、
ABiはPyjに属すると呼ぶ。
上への投影をとり、互いに重なりあうものをマージした
投影をPyj=(ysj,yej)(j=1,…,M)
とする。ここでABiの投影がPyjに含まれる場合、
ABiはPyjに属すると呼ぶ。
【0051】(2)同一のPyjに属するABiのX軸
上の投影をとり、互いに重なりあうものをマージした投
影をPxjk=(xsjk,xejk)(k=1,…,
N)とする。この時、Pxjkが次の条件を満たす場
合、それに属するABiの集合は1つのマルチカラムを
構成するブロックとみなす。
上の投影をとり、互いに重なりあうものをマージした投
影をPxjk=(xsjk,xejk)(k=1,…,
N)とする。この時、Pxjkが次の条件を満たす場
合、それに属するABiの集合は1つのマルチカラムを
構成するブロックとみなす。
【0052】[条件1] N ≧ 2である。 [条件2] 各Pxjkの長さがほぼ等しい。 [条件3] Pxjkの長さの和がページ幅に近い。
【0053】また、この条件を満たさない場合、それに
属するBiの集合は1つのフロートフレーム(シングル
カラム)を構成するブロックとみなす。
属するBiの集合は1つのフロートフレーム(シングル
カラム)を構成するブロックとみなす。
【0054】(3)マルチカラムフレームと認識された
jに対して、その領域は、(xsj1,ysj)と(x
ejN,yej)を対角線とする矩形であり、また、各
カラム領域は(xsjk,ysj)と(xejk,ye
j) (k=1,…,N)を対角線とするN個の矩形で
ある。
jに対して、その領域は、(xsj1,ysj)と(x
ejN,yej)を対角線とする矩形であり、また、各
カラム領域は(xsjk,ysj)と(xejk,ye
j) (k=1,…,N)を対角線とするN個の矩形で
ある。
【0055】また、フロートフレームと認識された場
合、その領域は(xsj1,ysj)と(xejN,y
ej) を対角線とする矩形である。
合、その領域は(xsj1,ysj)と(xejN,y
ej) を対角線とする矩形である。
【0056】ここで、上記処理で求めたレイアウト情報
から各ページクラス毎にカラム領域の右辺でページ間の
位置合わせを行い、併せて、各ページのカラム領域のO
Rを取ってカラムフレーム幅を決定する。また、すべて
の仮ブロックを含む最小矩形をボディフレームとする。
これらは、カラムデータCLiとして、ブロック構築部
6の制御データとして使用される。さらにカラムに対す
る各レクタングルの左右オフセットを測定し記録する。
から各ページクラス毎にカラム領域の右辺でページ間の
位置合わせを行い、併せて、各ページのカラム領域のO
Rを取ってカラムフレーム幅を決定する。また、すべて
の仮ブロックを含む最小矩形をボディフレームとする。
これらは、カラムデータCLiとして、ブロック構築部
6の制御データとして使用される。さらにカラムに対す
る各レクタングルの左右オフセットを測定し記録する。
【0057】ブロック構築部6は、データABiとCL
iに基づいてレイアウト上の単位であるブロックを構築
していく。
iに基づいてレイアウト上の単位であるブロックを構築
していく。
【0058】(1)各仮ブロックデータABiにおいて
は、レクタングルの種別が変化するところで分割を行
う。
は、レクタングルの種別が変化するところで分割を行
う。
【0059】(2)セパレータについては、(a)ヘッ
ダ/フッタ部とボディ部を区別するもの、(b)脚注部
と本文を区別するもの、(c)本文中で使用されるも
の、等の可能性がある。まず、複数ページ文書で各ペー
ジのヘッダ/フッタ部の直下または直上の同じ位置に生
ずるセパレータは(a)とみなす。
ダ/フッタ部とボディ部を区別するもの、(b)脚注部
と本文を区別するもの、(c)本文中で使用されるも
の、等の可能性がある。まず、複数ページ文書で各ペー
ジのヘッダ/フッタ部の直下または直上の同じ位置に生
ずるセパレータは(a)とみなす。
【0060】また、ヘッダ/フッタ部が未発見の場合
で、セパレータ上部/下部にThn個以下のレクタング
ルを含むブロックが少数存在する時も(a)とみなし、
これらのブロックはヘッダ/フッタ部を構成するものと
する処理を行い、データHFiとして出力する。
で、セパレータ上部/下部にThn個以下のレクタング
ルを含むブロックが少数存在する時も(a)とみなし、
これらのブロックはヘッダ/フッタ部を構成するものと
する処理を行い、データHFiとして出力する。
【0061】次に、カラムまたはページの下部に単独で
含まれるセパレータは(b)とみなし、これに続くブロ
ックは脚注部とした。これ以外のセパレータは(c)と
みなし、ラスタとして扱った。
含まれるセパレータは(b)とみなし、これに続くブロ
ックは脚注部とした。これ以外のセパレータは(c)と
みなし、ラスタとして扱った。
【0062】(3)1つのカラム内では横方向でのブロ
ックの重複は許されないので、構成レクタングルが文字
でできているもの同士は文字レクタングル間のマージを
行い、また、1つでも図形レクタングルがあるものは全
体を図形レクタングルとしてマージして、ブロックを再
構成する。さらに、ブロック中の各レクタングルもy座
標でソートしなおす。
ックの重複は許されないので、構成レクタングルが文字
でできているもの同士は文字レクタングル間のマージを
行い、また、1つでも図形レクタングルがあるものは全
体を図形レクタングルとしてマージして、ブロックを再
構成する。さらに、ブロック中の各レクタングルもy座
標でソートしなおす。
【0063】(4)ブロックの順序としては、同一カラ
ムフレーム内では上から下へ、また同一マルチカラムフ
レーム内では左から右へ、さらに異なるマルチカラムフ
レームおよびフロートフレーム間では上から下へと順序
づけを行い、全体として1つの流れを構成するブロック
データBiとして節番号解析部7へ送る。
ムフレーム内では上から下へ、また同一マルチカラムフ
レーム内では左から右へ、さらに異なるマルチカラムフ
レームおよびフロートフレーム間では上から下へと順序
づけを行い、全体として1つの流れを構成するブロック
データBiとして節番号解析部7へ送る。
【0064】節番号解析部7は、ブロック構築部6まで
で終了する純粋なレイアウト単位であるブロックの分離
をさらに進めて、論理的側面も考慮したブロックの再分
割を実行し、その結果をブロックデータBi’として、
表示属性解析部8へ送る。節番号解析では各ブロックの
文字レクタングルの先頭の文字列を次のように解析し、
節番号の識別を行い、その直前でブロックを分割した。
また、当該レクタングルは節番号を表わす論理ラベルを
付ける。
で終了する純粋なレイアウト単位であるブロックの分離
をさらに進めて、論理的側面も考慮したブロックの再分
割を実行し、その結果をブロックデータBi’として、
表示属性解析部8へ送る。節番号解析では各ブロックの
文字レクタングルの先頭の文字列を次のように解析し、
節番号の識別を行い、その直前でブロックを分割した。
また、当該レクタングルは節番号を表わす論理ラベルを
付ける。
【0065】ここで、節番号部は、 <Sec−Num>[<Separator><Sec
−Num>] (但し、<Sec−Num>は正数、<Separet
or>はセパレータ文字を表す。また、[ ]は繰り返
しを表す。なお、典型的には、<Separator>
={.}とする。)という形式で表されるものとする。
図4に示すように、一般にmレベルの階層にある節番号
snrに対して、次に現われる節番号としてはm+1個
の節番号が考えられ、ここでは、これらをsnrの1次
導出節番号と呼ぶ。また、各1次節番号の次に生じうる
節番号の全体をsnrの2次導出節番号とし、以下、同
様にn次導出節番号が定義できる。実際には、文字認識
の誤りなどで節番号の乱れが生じうるが、ここでは、こ
のような乱れは散発的に起きることを想定して処理を行
った。
−Num>] (但し、<Sec−Num>は正数、<Separet
or>はセパレータ文字を表す。また、[ ]は繰り返
しを表す。なお、典型的には、<Separator>
={.}とする。)という形式で表されるものとする。
図4に示すように、一般にmレベルの階層にある節番号
snrに対して、次に現われる節番号としてはm+1個
の節番号が考えられ、ここでは、これらをsnrの1次
導出節番号と呼ぶ。また、各1次節番号の次に生じうる
節番号の全体をsnrの2次導出節番号とし、以下、同
様にn次導出節番号が定義できる。実際には、文字認識
の誤りなどで節番号の乱れが生じうるが、ここでは、こ
のような乱れは散発的に起きることを想定して処理を行
った。
【0066】(1)各レクタングル中より節番号開始パ
ターン(例: 1.や1)を検出し、解析の始点(sn
r0)とする。また、これ以前に存在するブロックには
タイトル部であることを示す論理ラベルを付ける。
ターン(例: 1.や1)を検出し、解析の始点(sn
r0)とする。また、これ以前に存在するブロックには
タイトル部であることを示す論理ラベルを付ける。
【0067】(2)確定済みの最新の節番号部をsnr
i、次候補をsnri+1、次々候補をsnri+2と
する。
i、次候補をsnri+1、次々候補をsnri+2と
する。
【0068】(3)snri+1が、snriの1次導
出節番号のいずれかとマッチングが成功する場合、sn
ri+1を最新の節番号とみなして(2)を繰り返す。
出節番号のいずれかとマッチングが成功する場合、sn
ri+1を最新の節番号とみなして(2)を繰り返す。
【0069】(4)snri+1が、snriの1次導
出節番号のいずれともマッチングが成功せず、予測と違
う場合、図5に示すような乱れがあったとして、次の処
理を行う。
出節番号のいずれともマッチングが成功せず、予測と違
う場合、図5に示すような乱れがあったとして、次の処
理を行う。
【0070】[ケース1:引用数字等の出現] snr
i+2をsnriの1次導出節番号と比較し、マッチン
グが成功すればsnri+2を最新の節番号とみなして
(2)へ。
i+2をsnriの1次導出節番号と比較し、マッチン
グが成功すればsnri+2を最新の節番号とみなして
(2)へ。
【0071】[ケース2:文字抜け] snri+1を
snriの2次導出節番号と比較し、マッチングが成功
すればsnri+1を最新の節番号とみなして(2)
へ。
snriの2次導出節番号と比較し、マッチングが成功
すればsnri+1を最新の節番号とみなして(2)
へ。
【0072】[ケース3:文字化け] snri+2を
snriの2次導出節番号と比較し、マッチングが成功
すればsnri+2を最新の節番号とみなして(2)
へ。このとき、snri+1の訂正も行う。
snriの2次導出節番号と比較し、マッチングが成功
すればsnri+2を最新の節番号とみなして(2)
へ。このとき、snri+1の訂正も行う。
【0073】(5)(4)のいずれの処理も失敗のとき
には、snri+1を最新の節番号とみなして(2)の
処理を行ってみるが、再び失敗するような場合には、本
処理全体が失敗したとみなす。
には、snri+1を最新の節番号とみなして(2)の
処理を行ってみるが、再び失敗するような場合には、本
処理全体が失敗したとみなす。
【0074】以上で、処理でブロックが再分割された結
果を、データBi’として表示属性解析部8へ送る。
果を、データBi’として表示属性解析部8へ送る。
【0075】表示属性解析部8は、各文字ブロックのレ
クタングル属性(位置、大きさ、オフセット値など)お
よびその変化を以下のようにチェックし、各ブロックが
一様な表示属性値を持つように分割し、その値を各ブロ
ックに記録すると共に、最終的なブロックデータB
i’’を論理構造生成部9に送る。
クタングル属性(位置、大きさ、オフセット値など)お
よびその変化を以下のようにチェックし、各ブロックが
一様な表示属性値を持つように分割し、その値を各ブロ
ックに記録すると共に、最終的なブロックデータB
i’’を論理構造生成部9に送る。
【0076】(1)行間 連続するレクタングル間の距離の変化を検出。
【0077】(2)文字間隔 含まれる文字の個数とレクタングルの幅より平均的な文
字間隔を算出し、その変化を検出。
字間隔を算出し、その変化を検出。
【0078】(3)行の高さ(文字の大きさに対応) レクタングルの高さの変化を検出。
【0079】(4)そろえ(左そろえ、センタリング、
右そろえ) 1)左オフセットの値の変化が誤差範囲内の2つ以上連
続するレクタングルを‘左そろえ’を持つ同一グループ
とみなす。 2)1)以外のレクタングルで、右オフセットの値の変
化が誤差範囲内の2つ以上連続するレクタングルを‘右
そろえ’を持つ同一グループとみなす。 3)1)および2)以外のレクタングルで、中心x座標
の値の変化が誤差範囲内の2つ以上連続するレクタング
ルを‘センタリング’を持つ同一グループとみなす。
右そろえ) 1)左オフセットの値の変化が誤差範囲内の2つ以上連
続するレクタングルを‘左そろえ’を持つ同一グループ
とみなす。 2)1)以外のレクタングルで、右オフセットの値の変
化が誤差範囲内の2つ以上連続するレクタングルを‘右
そろえ’を持つ同一グループとみなす。 3)1)および2)以外のレクタングルで、中心x座標
の値の変化が誤差範囲内の2つ以上連続するレクタング
ルを‘センタリング’を持つ同一グループとみなす。
【0080】(5)オフセット(左オフセット、右オフ
セット) (1)〜(4)の処理によって再分割されたブロックに
ついて、すべての含まれるレクタングルを囲む最小矩形
として大きさを再計算し、上位フレームからの左右のオ
フセットも再計算する。また、各レクタングルにおい
て、上位ブロックとレクタングルの辺に距離がある場合
(左そろえならば右辺同士)、ハードリターンがあると
みなす。ここで、ハードリターンでブロックを分割する
かどうかは、ユーザの選択によるものとした。なお、節
番号を表す論理ラベルを持つレクタングルに対して、節
番号直後から次のハードリターンまでを節タイトル部と
して分離する。
セット) (1)〜(4)の処理によって再分割されたブロックに
ついて、すべての含まれるレクタングルを囲む最小矩形
として大きさを再計算し、上位フレームからの左右のオ
フセットも再計算する。また、各レクタングルにおい
て、上位ブロックとレクタングルの辺に距離がある場合
(左そろえならば右辺同士)、ハードリターンがあると
みなす。ここで、ハードリターンでブロックを分割する
かどうかは、ユーザの選択によるものとした。なお、節
番号を表す論理ラベルを持つレクタングルに対して、節
番号直後から次のハードリターンまでを節タイトル部と
して分離する。
【0081】(6)第1行オフセット (1)〜(5)の処理によってそろえ属性が決定しない
ブロックに属する単一のレクタングルで、続くブロック
が左そろえのものがあれば、図6に示す第1行オフセッ
トとして処理し1つのブロックとする。第1行オフセッ
トには、通常のものといわゆるオーバーハングがあり、
後者の場合左オフセットおよびインデントを図のように
設定する。
ブロックに属する単一のレクタングルで、続くブロック
が左そろえのものがあれば、図6に示す第1行オフセッ
トとして処理し1つのブロックとする。第1行オフセッ
トには、通常のものといわゆるオーバーハングがあり、
後者の場合左オフセットおよびインデントを図のように
設定する。
【0082】(7)小タイトル ハードリターンを持つレクタングルのうち、以下の条件
のものは小タイトル部とみなし、直前でブロックを分割
する。 1)直前のレクタングルもハードリターンを含む。 2)’(1)’、’1)’、などの特定のパターンで始
まる。
のものは小タイトル部とみなし、直前でブロックを分割
する。 1)直前のレクタングルもハードリターンを含む。 2)’(1)’、’1)’、などの特定のパターンで始
まる。
【0083】(8)以上のいずれの処理によってもそろ
え属性が決定しないブロックは、第1行オフセット付き
の2行で構成されるものと考えられるため、ハードリタ
ーン情報を基にブロック化を行う。
え属性が決定しないブロックは、第1行オフセット付き
の2行で構成されるものと考えられるため、ハードリタ
ーン情報を基にブロック化を行う。
【0084】以上の処理によってレイアウトおよび論理
上の特徴によって文書要素が分離される。最終的に得ら
れる論理的な境界も考慮したレイアウト構造を図7に示
す。
上の特徴によって文書要素が分離される。最終的に得ら
れる論理的な境界も考慮したレイアウト構造を図7に示
す。
【0085】論理構造生成部9は、最終的なブロック分
割データBi’’から、節・段落等の構造を持つ論理構
造化文書を生成する。
割データBi’’から、節・段落等の構造を持つ論理構
造化文書を生成する。
【0086】まず、論理構造生成処理を記述するため
に、以下の2つの関数を定義する。 (1)オブジェクト生成関数 : CreateC
hild 本関数は、指定するオブジェクトpobjに対して、指
定する構成要素タイプConstituentType
の子オブジェクトを作成し、識別子を返す。既にいくつ
かの子オブジェクトが存在する場合には、最後尾に作成
する。objid=CreateChild(pobj
id, ConstituentType)
に、以下の2つの関数を定義する。 (1)オブジェクト生成関数 : CreateC
hild 本関数は、指定するオブジェクトpobjに対して、指
定する構成要素タイプConstituentType
の子オブジェクトを作成し、識別子を返す。既にいくつ
かの子オブジェクトが存在する場合には、最後尾に作成
する。objid=CreateChild(pobj
id, ConstituentType)
【0087】(2)上位オブジェクト識別子獲得関数
: GetSupObj 本関数は、現在処理中のオブジェクトcobjのNレベ
ル上位のオブジェクトの識別子を返す。 objid=GetSupObj(cobjid, N) (N≧0) 論理構造生成処理はブロックデータを順次スキャンし、
これに対応させて論理オブジェクトを生成させていく。
以下に手順を示す。
: GetSupObj 本関数は、現在処理中のオブジェクトcobjのNレベ
ル上位のオブジェクトの識別子を返す。 objid=GetSupObj(cobjid, N) (N≧0) 論理構造生成処理はブロックデータを順次スキャンし、
これに対応させて論理オブジェクトを生成させていく。
以下に手順を示す。
【0088】(1)タイトル部の生成 論理ラベルとしてタイトルを持つブロックbiに対して
は、そのメディアタイプに応じてテキスト(TXT)ま
たはラスタ(RAS)として、順次構造を作成していく
(図8(a) )。 CreateChild(pasid, TXT |
RAS); 但し、ルートlorおよびパッセージpasは論理構造
中に作成済とする。
は、そのメディアタイプに応じてテキスト(TXT)ま
たはラスタ(RAS)として、順次構造を作成していく
(図8(a) )。 CreateChild(pasid, TXT |
RAS); 但し、ルートlorおよびパッセージpasは論理構造
中に作成済とする。
【0089】(2)最初の節の作成 始めて、節番号であることを表すラベルを持つブロック
に出会った時点で節(SEC)を作成する。 sid=CreateChild(pasid, SE
C); また、同時に、節番号(SNR)と節タイトルに対応す
るテキスト(TXTst)を作成。 CreateChild(sid, SNR); CreateChild(sid, TXTst); さらに、引き続くブロックに対応させて、順次テキスト
またはラスタを生成する(図8(b))。なお、論理ラ
ベルが脚注のブロックを含む場合には、まずパラグラフ
(PAR)を作成し、その下位にテキスト、ラスタまた
は脚注(とその下位構造)を順次作成する。 pid=CreateChild(sid, PAR); CreateChild(pid, TXT | RAS | FNT); ・ ・ ・ ・ ・ ・ ・ ・
に出会った時点で節(SEC)を作成する。 sid=CreateChild(pasid, SE
C); また、同時に、節番号(SNR)と節タイトルに対応す
るテキスト(TXTst)を作成。 CreateChild(sid, SNR); CreateChild(sid, TXTst); さらに、引き続くブロックに対応させて、順次テキスト
またはラスタを生成する(図8(b))。なお、論理ラ
ベルが脚注のブロックを含む場合には、まずパラグラフ
(PAR)を作成し、その下位にテキスト、ラスタまた
は脚注(とその下位構造)を順次作成する。 pid=CreateChild(sid, PAR); CreateChild(pid, TXT | RAS | FNT); ・ ・ ・ ・ ・ ・ ・ ・
【0090】(3)後続の節の作成 一般に、Mレベルにある節siまでの処理が終了し、次
にNレベルにある節si+1が発見された場合、次の様
にsi+1を生成する(図8(c) )。但し、 M+1≧N≧1。sid=GetSupObj(si,
M−N+1); CreateChild(sid, SEC); また、下位構造の作成は(2)に準ずる。
にNレベルにある節si+1が発見された場合、次の様
にsi+1を生成する(図8(c) )。但し、 M+1≧N≧1。sid=GetSupObj(si,
M−N+1); CreateChild(sid, SEC); また、下位構造の作成は(2)に準ずる。
【0091】(4)図とキャプションのマージ (2)および(3)の処理をすべての節に属するブロッ
クに対して行った後、図に近接する少数レクタングルし
か含まないテキストをキャプションとみなしマージを行
う。
クに対して行った後、図に近接する少数レクタングルし
か含まないテキストをキャプションとみなしマージを行
う。
【0092】(5)同一表示属性を持つオブジェクトの
マージ 最後に、カラム/ページ末のテキストと、それに続くカ
ラム/ページ先頭のテキストに注目し、第1行オフセッ
ト以外の表示属性がほぼ等しければマージを行う(図8
(d))。以上の処理によって、論理構造化文書Dが完
成し、出力される。
マージ 最後に、カラム/ページ末のテキストと、それに続くカ
ラム/ページ先頭のテキストに注目し、第1行オフセッ
ト以外の表示属性がほぼ等しければマージを行う(図8
(d))。以上の処理によって、論理構造化文書Dが完
成し、出力される。
【0093】最後にヘッダ/フッタ解析部3、仮ブロッ
ク生成部4、ブロック構築部6からのデータHFiと論
理構造生成部9からの論理構造化文書Dとが合わされ図
2に示した文章形式となる。
ク生成部4、ブロック構築部6からのデータHFiと論
理構造生成部9からの論理構造化文書Dとが合わされ図
2に示した文章形式となる。
【0094】
【発明の効果】以上のように、本発明は、文書画像を論
理構造を持つ文書に変換することによって、論理構造を
ベースとする編集や検索等の処理可能な形式とする手段
を提供し、文書作成時の紙面文書の簡易入力、ファクシ
ミリ画像の処理可能なワープロ文書変換、文書画像デー
タベース検索における論理要素単位の検索等に有効であ
る。
理構造を持つ文書に変換することによって、論理構造を
ベースとする編集や検索等の処理可能な形式とする手段
を提供し、文書作成時の紙面文書の簡易入力、ファクシ
ミリ画像の処理可能なワープロ文書変換、文書画像デー
タベース検索における論理要素単位の検索等に有効であ
る。
【0095】また、抽出されたヘッダ/フッタ部の共通
コンテントは、文書テンプレートとのマッチングによっ
て、どの文書タイプに属するかの判断材料となり、文書
の自動分類等に有効である。
コンテントは、文書テンプレートとのマッチングによっ
て、どの文書タイプに属するかの判断材料となり、文書
の自動分類等に有効である。
【図1】本発明の実施例の構成図である。
【図2】対象となる文書形式を表わす構造表現を示す図
である。
である。
【図3】カラム確定処理を示す図である。
【図4】節番号の導出を示す図である。
【図5】節番号識別処理を示す図である。
【図6】第1行オフセットを示す図である。
【図7】解析されたブロックデータおよびレクタングル
データを含むレイアウト構造を示す図である。
データを含むレイアウト構造を示す図である。
【図8】論理構造生成処理を示す図である。
【符号の説明】 1 レクタングル生成部 2 文字認識部 3 ヘッダ/フッタ解析部 4 仮ブロック生成部 5 カラム確定部 6 ブロック構築部 7 節番号解析部 8 表示解析部 9 論理構造生成部
Claims (2)
- 【請求項1】 黒白2値画像で表現される複数の文書画
像を、章・節・文章段落・図等に分けられた構造を持つ
論理構造化文書に変換するシステムにおいて、 文書画像のカラム抽出やブロック抽出によって実現され
るレイアウト解析に加え、文書画像のヘッダ/フッタ領
域を抽出しページ番号部、共通コンテント部を識別し、
各ページのカラム領域の確定を行いカラム内のブロック
の構築を行い、論理構造を識別するための節番号部解析
を行い、各節内の表示属性の解析を行い文章の段落分け
を行い、カラム/ページ末の文章段落とそれに続くカラ
ム/ページ先頭の文章段落に注目し表示属性がほぼ等し
ければマージを行うことによって、文書の論理構造を完
成することを特徴とする文書画像の論理構造化文書への
変換方法。 - 【請求項2】 黒白2値画像で表現される複数の文書画
像を、章・節・文章段落・図等に分けられた構造を持つ
論理構造化文書に変換するシステムにおいて、 文書画像から互いに近接した領域を抽出するレクタング
ル生成部と、 文字認識を行う文字認識部と、文書画像のヘッダ/フッ
タ領域を抽出しページ番号部、共通コンテント部を識別
するヘッダ/フッタ解析部と、 大まかなレイアウトを解析する仮ブロック生成部と、各
ページのカラム領域の確定を行うカラム確定部と、 カラム内のブロックの構築を行うブロック構築部と、 論理構造を識別するための節番号部解析を行う節番号解
析部と、 各節内の表示属性の解析を行い文章の段落分けを行う表
示属性解析部と、 節構造等を生成し、また、カラム/ページ末の文章段落
とそれに続くカラム/ページ先頭の文章段落に注目し表
示属性がほぼ等しければマージを行う論理構造生成部と
を有し、文書の論理構造を完成することを特徴とする文
書画像の論理構造化文書への変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5023480A JPH06214983A (ja) | 1993-01-20 | 1993-01-20 | 文書画像の論理構造化文書への変換方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5023480A JPH06214983A (ja) | 1993-01-20 | 1993-01-20 | 文書画像の論理構造化文書への変換方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06214983A true JPH06214983A (ja) | 1994-08-05 |
Family
ID=12111698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5023480A Pending JPH06214983A (ja) | 1993-01-20 | 1993-01-20 | 文書画像の論理構造化文書への変換方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06214983A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212293A (ja) * | 1995-01-31 | 1996-08-20 | Toshiba Corp | Sgmlタグ付与処理システム |
US5920879A (en) * | 1996-05-20 | 1999-07-06 | Fuji Xerox Co., Ltd. | Document structure conversion apparatus |
JP2006195980A (ja) * | 2005-01-10 | 2006-07-27 | Xerox Corp | ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置 |
JP2009026122A (ja) * | 2007-07-20 | 2009-02-05 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法、および文書処理プログラム |
CN101807179A (zh) * | 2009-02-13 | 2010-08-18 | 富士施乐株式会社 | 信息处理器以及信息处理方法 |
JP2014096171A (ja) * | 2011-01-18 | 2014-05-22 | Apple Inc | 文書内のリストの再構築 |
US8959116B2 (en) | 2011-01-18 | 2015-02-17 | Apple Inc. | Storage of a document using multiple representations |
US9063911B2 (en) | 2009-01-02 | 2015-06-23 | Apple Inc. | Identification of layout and content flow of an unstructured document |
US10621428B1 (en) | 2019-05-17 | 2020-04-14 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
CN111435961A (zh) * | 2019-01-15 | 2020-07-21 | 佳能株式会社 | 图像处理设备、控制方法及非暂时性计算机可读存储介质 |
CN111832403A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 文档结构识别方法、文档结构识别的模型训练方法和装置 |
JP2021033804A (ja) * | 2019-08-28 | 2021-03-01 | 西日本電信電話株式会社 | 構造化文書作成装置とその方法 |
-
1993
- 1993-01-20 JP JP5023480A patent/JPH06214983A/ja active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212293A (ja) * | 1995-01-31 | 1996-08-20 | Toshiba Corp | Sgmlタグ付与処理システム |
US5920879A (en) * | 1996-05-20 | 1999-07-06 | Fuji Xerox Co., Ltd. | Document structure conversion apparatus |
JP2006195980A (ja) * | 2005-01-10 | 2006-07-27 | Xerox Corp | ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置 |
JP2009026122A (ja) * | 2007-07-20 | 2009-02-05 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法、および文書処理プログラム |
US9063911B2 (en) | 2009-01-02 | 2015-06-23 | Apple Inc. | Identification of layout and content flow of an unstructured document |
US9959259B2 (en) | 2009-01-02 | 2018-05-01 | Apple Inc. | Identification of compound graphic elements in an unstructured document |
US9460063B2 (en) | 2009-01-02 | 2016-10-04 | Apple Inc. | Identification, selection, and display of a region of interest in a document |
CN101807179A (zh) * | 2009-02-13 | 2010-08-18 | 富士施乐株式会社 | 信息处理器以及信息处理方法 |
JP2010186389A (ja) * | 2009-02-13 | 2010-08-26 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
US8959116B2 (en) | 2011-01-18 | 2015-02-17 | Apple Inc. | Storage of a document using multiple representations |
JP2014096171A (ja) * | 2011-01-18 | 2014-05-22 | Apple Inc | 文書内のリストの再構築 |
CN111435961A (zh) * | 2019-01-15 | 2020-07-21 | 佳能株式会社 | 图像处理设备、控制方法及非暂时性计算机可读存储介质 |
CN111435961B (zh) * | 2019-01-15 | 2022-10-18 | 佳能株式会社 | 图像处理设备、控制方法及非暂时性计算机可读存储介质 |
US10621428B1 (en) | 2019-05-17 | 2020-04-14 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
JP2020191057A (ja) * | 2019-05-17 | 2020-11-26 | ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. | レイアウト解析方法、読書補助装置、回路及び媒体 |
JP2021033804A (ja) * | 2019-08-28 | 2021-03-01 | 西日本電信電話株式会社 | 構造化文書作成装置とその方法 |
CN111832403A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 文档结构识别方法、文档结构识别的模型训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5956422A (en) | Processor based method for extracting tablets from printed documents | |
JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
US5335290A (en) | Segmentation of text, picture and lines of a document image | |
US6754385B2 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
US8041113B2 (en) | Image processing device, image processing method, and computer program product | |
JPH05307638A (ja) | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 | |
JPH08305803A (ja) | 文字テンプレートセット学習マシン動作方法 | |
JPH10162150A (ja) | ページ解析システム | |
JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
JPH0668301A (ja) | 文字認識方法及び装置 | |
US7046847B2 (en) | Document processing method, system and medium | |
JPH06214983A (ja) | 文書画像の論理構造化文書への変換方法および装置 | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
Chowdhury et al. | Automated segmentation of math-zones from document images | |
Dori et al. | Segmentation and recognition of dimensioning text from engineering drawings | |
Saitoh et al. | Document image segmentation and text area ordering | |
Baker et al. | Comparing approaches to mathematical document analysis from PDF | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
KR100411894B1 (ko) | 문서영상 영역해석 방법 | |
Saitoh et al. | Document image segmentation and layout analysis | |
JPH11232439A (ja) | 文書画像構造解析方法 | |
JPH08320914A (ja) | 表認識方法および装置 | |
Ranka et al. | Automatic table detection and retention from scanned document images via analysis of structural information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19981110 |