JP2003288334A - 文書処理装置及び文書処理方法 - Google Patents

文書処理装置及び文書処理方法

Info

Publication number
JP2003288334A
JP2003288334A JP2002093092A JP2002093092A JP2003288334A JP 2003288334 A JP2003288334 A JP 2003288334A JP 2002093092 A JP2002093092 A JP 2002093092A JP 2002093092 A JP2002093092 A JP 2002093092A JP 2003288334 A JP2003288334 A JP 2003288334A
Authority
JP
Japan
Prior art keywords
document
area
logical element
chart
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002093092A
Other languages
English (en)
Inventor
Yasuto Ishitani
康人 石谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002093092A priority Critical patent/JP2003288334A/ja
Publication of JP2003288334A publication Critical patent/JP2003288334A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】複数ページからなる印刷文書に含まれる図、表
などの浮遊要素を適切な位置に設定してXML文書やH
TML文書などの構造化文書を生成する。 【解決手段】印刷文書に対応した文書画像をレイアウト
解析部11にてレイアウト解析して文章領域と図表領域
を抽出すると共に文字認識部12にて文章領域中の文字
を切り出して認識処理する。文字認識結果とレイアウト
解析結果を文書論理要素抽出部13に与えて文章領域か
ら文書論理要素領域を抽出し、読み順設定部14にて文
書論理要素領域と図表領域の各領域に対して順序付けを
行う。そして、文書構造解析部16にて文書論理要素領
域と図表領域の各領域をグループ化して文書構造を抽出
し、その文書構造の中で浮遊要素に相当する領域の出現
位置を変更して文書出力部17に与えて構造化文書を生
成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、オフィスや家庭な
どで流通している新聞記事、雑誌、科学技術文献、書
籍、オフィス文書、公文書などの印刷文書を処理の対象
としており、この種の印刷文書に記載されている内容を
抽出・構造化する文書処理装置に係り、特に文章の他に
図面や表などが混在した印刷文書を例えばXML(exte
nsible markup language)文書やHTML(hypertext
markup language)文書などの構造化文書に変換する場
合に用いて好適な文書処理装置及び文書処理方法に関す
る。
【0002】
【従来の技術】オフィスや家庭などでは、新聞記事、雑
誌、科学技術文献、書籍、オフィス文書、公文書など、
様々な印刷文書が流通している。この種の印刷文書をス
キャナ等の入力装置から文書画像(イメージ)としてコ
ンピュータに取り込み、その画像情報を解析して文字領
域から文字パターンを切り出し、文字認識技術により各
文字をコード化することにより、印刷文書の内容を電子
化・再利用したいという要求がある。この場合、従来の
技術では、文字認識の対象となる文章領域のみに着目し
て文書の電子化が行われていた。このような技術の例は
いくつかあるが、代表的なものを挙げて説明する。
【0003】ここで、文献「黄瀬他:“文書画像構造解
析のための知識ベースの一構成法”、情処学論、Vol.3
4, No.1, PP75-87, (1993-1)」によれば、文書構造と
は、“レイアウト構造”と“論理構造”から構成されて
おり、“レイアウト構造”とはテキスト、図、写真、表
などの文書要素の幾何情報(位置情報と大きさ情報)に
関する階層構造のことであり、ブロック領域などのレイ
アウトオブジェクトを要素として持つと定義される。
“論理構造”とは論理意味情報(コンテンツ)に関する
階層構造のことであり、章節などの論理オブジェクトを
要素として持つと定義される。このような定義を念頭に
おいて、以下、いくつかの従来技術に触れてみる。
【0004】(1)「S.Tsujimoto: " Major Component
s of a Complete Text Reading System," Proceedings
of THE IEEE, Vol.80, No.7, July, 1992」 この論文では、レイアウト解析によって得られたレイア
ウトオブジェクトの幾何的階層構造に対して、いくつか
の一般的なルールを適用することにより、論理構造に変
換する方式について説明している。この場合、論理構造
は木構造で表現されるが、それをルートから辿っていく
と読み順が得られる。
【0005】(2)「駱他:“ルールベースの適用によ
る日本語新聞紙紙面の構造認識”、信学論D-II, Vol.J7
5-D-II, No.9, pp.1514-1525, (1992-9)」 これは、日本語新聞のレイアウトオブジェクトを隣接関
係グラフで表現し、ルールに基づいてこのグラフを解釈
することでタイトル(見出し)、本文、セパレータ、写
真、図表で構成される記事を個別に抽出するというもの
である。
【0006】(3)「山下他:“モデルに基づいた文書
画像のレイアウト理解”、信学論D-II, Vol.J75-D-II,
No.10, pp.1673-1681, (1992-10)」 これは、レイアウトオブジェクトと1対1に対応した論
理オブジェクトについて、表形式で簡単に表現されたモ
デルを入力文書のレイアウト解析結果に適用して、簡単
な論理構造を抽出するものである。
【0007】(4)「黄瀬他:“文書画像構造解析のた
めの知識ベースの一構成法”、情処学論、Vol.34, No.
1, PP75-87, (1993-1)」 これは、レイアウト構造と論理構造とその対応関係を表
す文書モデルを用いて入力文書に対して推論を適用する
ことにより文書構造を抽出する。文書モデルは、構造の
階層性を記述できるフレーム表現を採用しており、セン
タリングなどのレイアウト記述を可能とし、各構成要素
の変動の記述も可能にしている。
【0008】(5)「山田:“文書画像のODA論理構
造化文書への変換方式”、信学論D-II, Vol.J76-D-II,
No.11, pp.2274-2284, (1993-11)」 これは、入力文書をODA機能標準PM(プロセッサブル
モード)26文書に自動マッピングする方式である。節構
造解析により、複数ページから多段の章・節・段落を抽
出・構造化し、表示属性解析により、字下げ、揃え、ハ
ードリターン、オフセットを抽出する。また、ヘッダ/
フッタ解析により、文書クラスの同定も可能としてい
る。
【0009】(6)「建石:“確率文法を用いた文書論
理構造の解釈法”、信学論D-II, Vol.J79-D-II, No.5,
pp.687-697, (1996-5)」 これは、確率文法の枠組を用いて、複数ページに渡る章
節構造とリスト構造を抽出するものである。
【0010】
【発明が解決しようとする課題】従来技術では、単ペー
ジに相当する1つの文書画像に対してのみ文書構造解析
処理を適用していることがあった。また、複数ページ分
の文書画像を対象としている場合であっても、図、表、
写真、脚注といったような文書論理構造(章節構造やリ
スト(箇条書き)構造)には規定されない浮遊要素の取
り扱いを無視していたり、あるいは、その浮遊要素を不
適切に取り扱ったりしていた。近年、インターネットの
普及に伴い、印刷文書に記載されている内容をXML文
書やHTML文書などのタグ付きされた構造化文書に変
換する要求が高まっており、その際に、印刷文書中に含
まれる図、表、写真、脚注などの浮遊要素(文章とは別
の文書論理要素)をオペレータが意図する位置に適切に
取り込んだ形で構造化することが望まれる。
【0011】そこで、本発明の目的は、複数ページから
なる印刷文書に含まれる文章とは別の図、表などの浮遊
要素を適切な位置に設定してXML文書やHTML文書
などの構造化文書を生成可能な文書処理装置及び文書処
理方法を提供することにある。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、複数ページからなる印刷文書に対応した
文書画像をレイアウト解析して文章領域と図表領域に相
当する部分画像を抽出するレイアウト解析手段と、この
レイアウト解析手段によって得られた文章領域の部分画
像から文字を切り出して認識処理する文字認識手段と、
この文字認識手段の文字認識結果と上記レイアウト解析
手段のレイアウト解析結果に基づいて、上記文章領域か
ら文書見出し、章節見出し、段落、箇条書き、ヘッダ、
フッタ、図表キャプション、脚注、数式などの文書論理
要素領域を抽出する文書論理要素抽出手段と、この文書
論理要素抽出手段によって得られた文書論理要素領域と
上記図表領域の各領域に対して順序付けを行う読み順設
定手段と、この読み順設定手段によって設定された各領
域の順序と領域種別、領域間の配置関係に基づいて上記
文書論理要素領域と上記図表領域の各領域をグループ化
することにより文書構造を抽出する文書構造抽出手段
と、この文書構造抽出手段によって得られた文書構造の
中でグループ化された領域あるいは単独の領域の出現位
置を変更する文書構造変更手段と、この文書構造変更手
段によって変更された文書構造に基づいて所定形式の構
造化文書を生成する構造化文書生成手段とを具備して構
成されるものである。
【0013】このような構成によれば、文書画像に含ま
れる文章と図表の各領域をグループ化した文書構造の中
で任意の領域の出現位置を変更できるので、例えば図や
表といった文章とは別の浮遊要素を適切な位置に設定し
てXML文書やHTML文書などのタグ付けされた構造
化文書を生成することができる。この場合、変更すべき
領域の位置をオペレータに指定させることで、オペレー
タの意図する文書構造で構造化文書を得ることができ
る。
【0014】また、上記文書論理要素抽出手段によって
抽出された各種文書論理要素の中で特定の文書論理要素
を不要要素として除去する不要要素除去手段を備えるこ
とで、例えばヘッダやフッタを不要要素として予め指定
しておけば、これを除去した形で構造化文書を得ること
ができる。
【0015】また、上記文書構造変更手段によって領域
の位置が変更された際に、その領域の前後に存在する同
一属性の文書論理要素を統合する要素統合手段を備える
ことで、例えば文章と文章の間に挿入されていた図表な
どの浮遊要素を他の場所に移動させた際に、その図表の
前後にあった2つの文章を1つの連続した文章として統
合した形で構造化文書を得ることができる。
【0016】また、本発明は、複数ページからなる印刷
文書を処理対象とし、その印刷文書に対応した文書画像
から所定形式の構造化文書を生成する文書処理装置であ
って、上記文書画像をレイアウト解析して文章領域と図
表領域に相当する部分画像を抽出するレイアウト解析手
段と、このレイアウト解析手段によって得られた文章領
域の部分画像から文字を切り出して認識処理する文字認
識手段と、この文字認識手段の文字認識結果と上記レイ
アウト解析手段のレイアウト解析結果に基づいて、上記
文章領域から文書見出し、章節見出し、段落、箇条書
き、ヘッダ、フッタ、図表キャプション、脚注、数式な
どの文書論理要素領域を抽出する文書論理要素抽出手段
と、この文書論理要素抽出手段によって得られた文書論
理要素領域と上記図表領域の各領域に対して順序付けを
行う読み順設定手段と、この読み順設定手段によって設
定された各領域の順序と領域種別、領域間の配置関係に
基づいて上記文書論理要素領域と上記図表領域の各領域
をグループ化することにより文書構造を抽出する文書構
造抽出手段と、この文書構造抽出手段によって得られた
文書構造の中で上記図表領域に関するグループの出現位
置を変更する文書構造変更手段と、この文書構造変更手
段によって変更された文書構造に基づいて所定形式の構
造化文書を生成する構造化文書生成手段とを具備して構
成されるものである。
【0017】このような構成によれば、文書画像に含ま
れる文章と図表の各領域をグループ化した文書構造の中
で図表、図表キャプション、図表脚注といったような図
表領域に関する各要素を1つのグループとして、その出
現位置を変更してXML文書やHTML文書などのタグ
付けされた構造化文書を生成することができる。この場
合、図表領域の変更位置として、当該図表が含まれる章
節の末尾や文書の末尾に配置したり、当該図表を最初に
参照している文書論理要素の直後に配置したり、当該図
表を最も多く参照している文書論理要素の直後に配置す
ることができる。
【0018】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。
【0019】本発明の文書処理装置では、新聞記事、雑
誌、科学技術文献、書籍、オフィス文書、公文書などの
複数ページからなる印刷文書を処理対象とし、図1に示
すように、この種の印刷文書をスキャナ等にて読み取っ
た文書画像(文書イメージ)を元にXML文書やHTM
L文書などの所定形式の構造化文書を生成するものであ
る。HTMLは、ハイパーテキストを記述するための言
語であって、タグ(<>で囲んだ予約語)を用いて、文
書の構造、画像などのファイルのある場所などを記述す
る。XMLは、HTMLの後継言語であり、SGML
(standard generalized markup language)の持つ拡張
機能をWeb上でも利用可能とした言語である。HTM
Lとの違いは、ユーザが独自のタグを使ってデータの属
性情報や論理構造を定義することができる。
【0020】図1(a)は本装置の処理対象となる印刷
文書に対応した文書画像の一例を示す図であり、ここで
は3ページ分の文書画像が示されている。この文書画像
には、文章(テキスト)の他に、図や表などが含まれて
いる。また、同図(b)はその文書画像に対応した構造
化文書の一例を示す図であり、タグ付けされたXML文
書やHTML文書などである。
【0021】図2は本発明の一実施形態に係る文書処理
装置の機能構成を示すブロック図である。まず、複数ペ
ージ(ここでは3ページ)で構成される印刷文書がスキ
ャナ等からなる画像入力装置10から連続する複数枚の
文書画像として順次入力される。なお、各画像はスキャ
ナ等で事前に2値化処理が行われて2値画像に変換され
ていても良いし、公知の技術により2値画像に変換され
ても良い。さらには、例えば特開平5−174183号
公報の「文書画像傾き検出方式」に記載されている技術
により、画像の傾きが検出・補正されることにより真直
ぐな2値画像に変換されていても良い。以下では、傾き
が補正された2値画像を入力画像と呼ぶことにする。印
刷文書に対応した複数枚の文書画像は、順次、本発明の
文書処理装置に入力されるものとする。
【0022】図2に示すように、本実施形態における文
書処理装置は、レイアウト解析部11、文字認識部1
2、文書論理要素抽出部13、読み順設定部14、文書
論理要素データ生成部15、文書構造解析部16、文書
出力部17から構成される。なお、本装置は、例えば磁
気ディスク等の記録媒体に記録されたプログラムを読み
込み、このプログラムによって動作が制御されるコンピ
ュータによって実現されるものであり、図2ではコンピ
ュータに搭載されたCPUがプログラムに記述された手
順に従って実行する各処理を機能的に示したものであ
る。
【0023】画像入力装置10から入力された文書画像
は本装置のレイアウト解析部11に与えられ、その入力
画像から図3に示すように文章領域、図領域、表領域な
どの性質の異なる部分領域がレイアウト要素群として抽
出される。図3(a)は印刷文書に対応した文書画像、
同図(b)はレイアウト解析処理によって得られる上記
文書画像の部分領域(レイアウト要素群)を示す図であ
る。
【0024】部分領域は、図4に示すようにその領域に
外接する矩形によって表現されるもものとする。この場
合、図5に示すように、その外接矩形の位置は左上端の
位置座標(x1,y1)と右下端の位置座標(x2,y
2)によって表現することができる。レイアウト解析で
は、縦書きと横書きの文章領域は異なる領域として分離
されて出力される。また、1つの文章領域はカラムを跨
って抽出されることがないものとする。ただし、段組
(パラグラフ)、箇条書き(リスト)、数式、章節タイ
トルなどの文書論理要素に相当する領域が抽出されてな
くても良いものとする。
【0025】ここで、文章領域では、図4に示すよう
に、文字行領域が順序付けられて抽出され、また、各文
字行領域では文字領域が同様に順序付けられて抽出され
る。この文字行領域と文字領域はそれぞれを外接する矩
形により表現される。図中のTBは文章領域、Strは
文字行領域、Chは文字領域を示している。図4の例で
は、文章領域TBに5つの文字行領域Str1〜Str
5が存在し、その中の文字行領域Str1には5つの文
字領域Ch1〜Ch5が存在している。
【0026】ここで、文章領域と文字行領域と文字領域
がそれぞれ階層的に、例えば図6のような木構造により
記述される。ここで、レイアウト解析部11は、例えば
特開平9−167233号公報の「画像処理方法および
画像処理装置」に記載されているような構成であっても
良い。この場合、レイアウト解析部11で文字認識処理
が行われて、文章領域の各文字がコード化されるように
なっていても良いし、レイアウト解析の直後に文字認識
処理が実施されて文章領域の各文字がコード化されるよ
うになっていても良い。
【0027】文字認識部12は、例えば「有吉:“動的
な仮説生成・検証による日本語印刷文書からの文字の切
り出し”,電子情報通信学会技術報告,PRU93-47, pp.3
3-40, 1993.」により実現されていても良い。この場
合、レイアウト解析で得られた文字行領域から個々の文
字領域を切り出した後に、文字領域内の文字パターンを
文字コードに変換する。このとき文字認識結果は最終的
に読み順に並んだ状態で出力される。
【0028】次に、レイアウト解析部11によって得ら
れたレイアウト解析結果が文字認識結果と共に文書論理
要素抽出部13に与えられる。文書論理要素抽出部13
では、図7に示すように、文章領域から文書見出し、段
落、ヘッダ、フッタ、キャプション(図表標題)、箇条
書き、章節見出し、脚注、数式などの文書論理要素領域
を抽出する。
【0029】図7(a)は文書画像の部分領域(レイア
ウト要素群)、同図(b)はその部分領域から抽出され
た文書論理要素領域を示す図であり、例えば1ページ目
の文書における1段目の「文章領域」から「ヘッダ領
域」、2段目の「文章領域」から「文書見出し領域」、
3段目の「文章領域」から「章節見出し領域」、「段組
領域」、「章節見出し領域」、「段組領域」、「箇条書
き領域」、「箇条書き領域」、3段目の「文章領域」か
ら「フッタ領域」が抽出された状態が示されている。こ
の場合、図1(a)に示すように、1段目の「文章領
域」から抽出された「ヘッダ領域」には「論文No.1
Vol.1」、2段目の「文章領域」から抽出された
「文書見出し領域」には「文書処理方法」、3段目の
「文章領域」から抽出された「章節見出し領域」には
「1.はじめに」、4段目の「文章領域」から抽出され
た「フッタ領域」には「1」といった文字列が記述され
ており、その文字認識結果は文字認識部12から与えら
れている。
【0030】なお、文書論理要素抽出方法としては、例
えば特開平11−250041号公報の「文書処理装置
および文書処理方法」に記載されている方法が用いられ
るものとし、レイアウト解析結果と文字認識結果に基づ
いて上述した文書論理要素領域が出力される。この場
合、各文書論理要素の領域は外接矩形で表現され、図4
乃至図6に示したように、その外接矩形の内部に文字行
領域が存在し、文字行領域の内部に文字領域が存在し、
文書論理要素領域と文字行領域と文字領域が木構造によ
り階層的に記述されている。そして、各文書論理要素領
域には、文書見出し、段落、ヘッダ、フッタ、キャプシ
ョン(図表標題)、箇条書き、章節見出し、脚注、数式
といった種類情報が論理属性として割り当てられる。
【0031】また、表領域については、例えばOiとい
った表領域があり、その外接矩形の左上端位置座標を
(OiX1,OiY1)、右下端位置座標を(OiX
2,OiY2)とし、th3およびth4を所定の閾値
とした場合に、以下のような条件の満たす文章領域を表
キャプションとして抽出する。 (1)左上端位置座標((OiX1−th3),(Oi
Y1−th4))と右下端位置座標(OiX1,OiY
1)で形成される表領域の上部に位置する探索矩形領域
に含まれている。 (2)文字認識結果に「表1」といったような特定の文
字が含まれている。
【0032】そして、このようして抽出した表キャプシ
ョンと表領域との間に位置する文章領域や、左上端位置
座標(OiX2,OiY2)および右下端位置座標(O
iX2+th3,OiY2+th4)で形成される表領
域の下部に位置する探索矩形領域に含まれる文章領域を
表脚注として抽出する。表キャプションを抽出するため
の探索矩形領域は前述のように表の上部にあっても良い
し、表の下部にあっても良い。図キャプションと図脚注
についても、上記同様のアプローチで抽出することがで
きる。
【0033】次に、文書論理要素抽出部13によって抽
出された文書論理要素領域がレイアウト解析部11で得
られたレイアウト要素領域と共に読み順設定部14に入
力されて、レイアウト要素領域と文書論理要素領域の配
置関係や幾何情報に基づいて文書論理要素領域に対する
順序付けがなされる。この読み順設定方法としては、例
えば特開平11−250041号公報の「文書処理装置
および文書処理方法」に記載されている方法が用いられ
る。その結果、例えば図8(a)のように、各文書毎に
上から順に各領域に対して読み順が付される。
【0034】このようにして、複数枚の文書画像のそれ
ぞれに対し、レイアウト解析処理、文字認識処理、文書
論理要素抽出処理、読み順設定処理が施されると、図9
に示すように、文書論理要素データ生成部15により各
領域毎に論理属性、読み順、文字認識結果などからなる
文書論理要素データが生成されて文書構造解析部16に
供給される。図9(a)は文書画像の文書論理要素領域
とその読み順を示す図、同図(b)はその文書論理要素
領域の木構造を示す図、同図(c)はその文書論理要素
領域のデータ構成を示す図である。
【0035】文書構造解析部16には、例えば全ての文
書画像のレイアウト解析から読み順設定までの処理がな
された後に、各文書画像に対応した文書論理要素データ
が一括して入力されるようになっていても良い。この場
合、文書毎に付与された読み順情報は、図8(b)に示
すようにページの連続性に伴って最初のページの先頭文
書論理要素から最終ページの最後の文書論理要素まで連
続した読み順が付与されるように変更される。
【0036】文書構造解析部16は、図10に示すよう
に、不要文書論理要素除去部21、文書論理要素グルー
プ化部22、文書構造抽出部23、文書構造変更部2
4、文書論理要素統合部25から構成される。
【0037】まず、不要文書論理要素除去部21によ
り、例えばヘッダやフッタのように、全てのページにお
いて重複して出現し、複数ページを統合して1つの構造
化文書を生成する場合に不要となる文書論理要素を除去
する。図11に各種文書論理要素の中でヘッダとフッタ
を不要要素として除去した結果を示す。
【0038】なお、ヘッダ領域やフッタ領域であって
も、巻・号・書誌情報などを含むものは1つにまとめて
当該文書のメタデータとして利用できるため、例えば1
ページ目の文書にあるヘッダ領域やフッタ領域について
は残しておくような構成にしても良い。どのページにヘ
ッダ領域やフッタ領域を残しておくのかはオペレータが
任意に指定できるものとする。
【0039】また、予めオペレータが任意の文書論理要
素を不要要素として指定しておくことで、その指定され
た文書論理要素を選択的に除去するような構成であって
も良い。つまり、ヘッダやフッダを不要要素として予め
指定しておけば、これを除去した形で構造化文書を得る
ことができる。
【0040】文書論理要素グループ化部22では、読み
順情報が連続する文書論理要素のうち、 ・図と図キャプション(図標題)と図脚注の組 ・表と表キャプション(表標題)と表脚注の組 ・表の中の連続するセルの組 ・同じヘッディング記述を持つ箇条書きの組 ・章節タイトルから次に出現する章節タイトルの直前の
文書論理要素までの組 などを抽出し、それぞれを図グループ、表グループ、表
カラム、箇条書きグループ、章節グループといったよう
に1つにまとめてグループ化する。図12にグループ化
の例を示す。
【0041】図グループと表グループに関しては、それ
ぞれに隣接する2つの文書論理要素領域Oi、Ojが同
一ページ上に存在し、以下に示す条件式を満たしている
場合にグループ化する。これは、図や表は同一ページ内
にまとめて割り付けられていることが多いという経験的
な法則に基づいた条件である。
【0042】キャプションが横書きの場合 ・min(OiX2,OjX2)−max(OiX1,
OjX1)>th1、かつ、max(OiY1,OjY
1)−min(OiY2,OjY2)<th2 ・キャプションが縦書きの場合 min(OiY2,OjY2)−max(OiY1,O
jY1)>th1、かつ、max(OiX1,OjX
1)−min(OiX2,OjX2)<th2 ただし、 OX1:文書論理要素領域Oの外接矩形の左上端X座
標、OX2:文書論理要素領域Oの外接矩形の右下端X
座標、OY1:文書論理要素領域Oの外接矩形の左上端
Y座標、OY2:文書論理要素領域Oの外接矩形の右下
端Y座標、th1:閾値、th2:閾値であり、文書画
像の左上端を原点(0,0)とする。また、例えばmi
n(OiX2,OjX2)とはX座標値OiX2とOj
X2のうちの小さい方をとり、max(OiX1,Oj
X1)とはX座標値OiX1とOjX1のうちの大きい
方をとることを意味する。
【0043】文書構造抽出部23では、文書論理要素グ
ループ化部22によってグループ化された文書論理要素
に基づいて、図13に示すような木構造により記述され
た文書階層構造を抽出する。この場合、全体文書という
ルートノードがあり、その下に4つの章節グループが同
階層に並び、各章節グループの下の階層に図グループや
表グループや箇条書きグループが配置され、その下の階
層に各グループを構成する論理要素領域が位置付けられ
るようになっている。つまり、図グループ、表グルー
プ、表グループ、箇条書きグループ、章節グループはそ
れぞれ図部分木、表部分木、箇条書き部分木、章節部分
木として全体木構造を構成する部分木として記述され
る。さらに、表や図形や写真/絵などのレイアウト要素
や各文書論理要素は全体木構造のノードとして記述され
る。
【0044】また、1つの章節部分木の中には、図13
のように、図部分木(図グループ)や表部分木(表グル
ープ)や箇条書き部分木(箇条書きグループ)などが混
在することがある。この場合、文書の印刷時に紙面上の
スペースの都合(組版上の都合)によって、図や表、脚
注などの浮遊要素が意図的に本文中に割り付けられるケ
ースが存在することを考慮すると、これらの浮遊要素が
木構造において必ずしも適切な箇所に配置されていると
は限らない。
【0045】そこで、文書構造変更部24では、このよ
うなケースを見つけ出し、文書構造抽出部23で得られ
た木構造に対して図部分木や表部分木などの配置を変更
する。ここで、図部分木や表部分木の変更先として、当
該図あるいは表が存在する章節グループの末尾を対象と
した場合には、図14のように木構造が変更される。図
14(a)は変更前の木構造、同図(b)は変更後の木
構造であり、図部分木と表部分木が章節グループの末尾
に変更された場合が示されている(図中の点線枠参
照)。
【0046】また、図部分木や表部分木の変更先とし
て、文書の末尾を対象とする場合には図15のように木
構造が変更される。図15(a)は変更前の木構造、同
図(b)は変更後の木構造であり、図部分木と表部分木
が文書の末尾に変更された場合が示されている(図中の
点線枠参照)。
【0047】また、図や表を最初に参照している文章の
文書論理要素領域あるいは最も多く参照している文章の
文書論理要素領域を最適位置として検出し、その領域の
直後に図部分木や表部分木を挿入することでも良い。
【0048】脚注などについても同様に考えることがで
きる。
【0049】また、図や表などがグループではなく、キ
ャプション(標題)などを伴わずに単独で出現する場合
には、その図や表の単独の領域で変更処理を行う。ま
た、このように単独で出現する場合に、その変更処理を
実施しないようにしても良い。あるいは、図や表の前後
の文書論理要素を統合した後に、その直後に図や表を移
動させるようにしても良い。
【0050】このように、文書構造において、図部分木
(図グループ)や表部分木(表グループ)の変更箇所を
幾通りか考えることができる。そこで、変更可能な箇所
の候補(章節末尾、文書末尾、参照箇所など)をオペレ
ータに提示することで、オペレータの指定に従って文書
構造の領域配置を図14(b)や図15(b)のように
変更するものとする。
【0051】ところで、図や表はカラム間やページ間な
どに跨って紙面上に割り付けられている場合が多い。こ
のような場合、元々1つの文書論理要素であったものが
図や表の介在により複数の文書論理要素に分割された状
態にある。そこで、文書論理要素統合部25では、文書
構造変更部24により図や表の配置が変更されたとき
に、その前後の文書論理要素を統合して1つの文書論理
要素にまとめる処理を行う。
【0052】図14(c)や図15(c)に2つの段組
領域(段組の文書論理要素)を1つに統合した状態を示
す。この2つの段組領域は、図14(a)や図15
(a)に示すように表グループの前後に存在していたも
のである。ここで、表グループの配置変更に伴い、図1
4(b)や図15(b)のように上記2つの段組領域が
隣接するようになったので、統合処理にて1つの段組領
域としてまとめる処理を行う。言い換えれば、文章間に
挿入されていた表を他の場所に移動させたことで、その
表の前後にあった2つの文章を1つの連続した文章とし
て統合するといった処理を施すものである。これは、表
に限らず、図の配置を変更した場合などでも同様であ
る。
【0053】このときの統合処理は以下のような条件に
基づいて行われる。
【0054】すなわち、今、例えば段組などの文書論理
要素領域Oiと文書論理要素領域Ojがあり、図16
(a)に示すように、それぞれ範囲が矩形領域で示され
るものとする。文書論理要素領域Oiの位置座標は(O
iX1,OiY1)と(OiX2,OiY2)、文書論
理要素領域Ojの位置座標は(OjX1,OjY1)と
(OjX2,OjY2)である。
【0055】ここで、OiとOjの2つの文書論理要素
が同一ページのID情報と同じ論理属性を有すると共に
その読み順が文書構造変更後に連続している場合におい
て、以下のような条件式を満たすときに、カラムを跨っ
た連続性を有する文書論理要素であると見なして、同図
(b)に示すように1つの文書論理要素として統合す
る。
【0056】・横書きの場合 min(OiX2,OjX2)−max(OiX1,O
jX1)+1≦0 ・縦書きの場合 min(OiY2,OjY2)−max(OiY1,O
jY1)+1≦0 なお、上記条件式を満たすことの他に、(1)前方の文
書論理要素領域Oiにおいて、文章の末尾行にハードリ
ターンがなく、(2)後方の文書論理要素Ojにおい
て、文章の先頭行が字下げされてない(つまり先頭位置
に文字が存在する)といったことを条件に加えること
で、統合処理をより精度良く行うことができる。
【0057】また、OiとOjが同一の論理属性を有
し、その読み順が文書構造変更後に連続しており、ペー
ジID情報が異なる場合には、上記条件式に基づいて、
この2つの文書論理要素はページを跨った文書論理要素
であると見なして、1つの文書論理要素として統合する
ことでも良い。
【0058】このような統合処理の後、文書出力部17
では、最終的に得られた木構造を元にして、図17のよ
うに各要素毎にタグ付けされたXML文書やHTML文
書などの構造化文書を生成して出力する。なお、構造化
文書を生成する手法については公知であるため、ここで
はその説明は省略するものとする。
【0059】このように、複数ページからなる印刷文書
を処理対象とし、そこに含まれる文章とは別の図、表な
どの浮遊要素を適切な位置にオペレータに指示などに従
って設定した形でXML文書やHTML文書などのタグ
付けされた構造化文書を生成することができる。これに
より、多様なアプリケーションへの適用性の高い構造化
文書を容易に得ることができる。
【0060】なお、上記実施形態では、浮遊要素とし
て、図と表を対象として説明したが、図と表の他に例え
ば写真、絵、脚注などの文書論理要素についても浮遊要
素として同様に扱うことができるものである。
【0061】また、上述した実施形態において記載した
手法は、コンピュータに実行させることのできるプログ
ラムとして、例えば磁気ディスク(フレキシブルディス
ク、ハードディスク等)、光ディスク(CD−ROM、
DVD等)、半導体メモリなどの記録媒体に書き込んで
各種装置に適用したり、そのプログラム自体をネットワ
ーク等の伝送媒体により伝送して各種装置に適用するこ
とも可能である。本装置を実現するコンピュータは、記
録媒体に記録されたプログラムあるいは伝送媒体を介し
て提供されたプログラムを読み込み、このプログラムに
よって動作が制御されることにより、上述した処理を実
行する。
【0062】
【発明の効果】以上詳記したように本発明によれば、複
数ページからなる印刷文書からXML文書やHTML文
書のようなタグ付けされた構造化文書を高精度に生成す
ることができる。この場合、文章とは別の図や表などの
浮遊要素を抽出し、生成される構造化文書の適切な箇所
あるいはオペレータによって指定された箇所に設定する
ことができるので、大量文書の電子化においてオペレー
タによる編集作業を大幅に軽減することができるもので
ある。
【図面の簡単な説明】
【図1】本発明の処理対象を説明するための図であり、
図1(a)は処理対象となる印刷文書に対応した文書画
像の一例、同図(b)はその文書画像に対応した構造化
文書の一例を示す図。
【図2】本発明の一実施形態に係る文書処理装置の機能
構成を示すブロック図。
【図3】上記文書処理装置のレイアウト解析部による処
理結果を示す図であって、図3(a)は印刷文書に対応
した文書画像、同図(b)はその文書画像の部分領域
(レイアウト要素群)を示す図。
【図4】レイアウト解析結果として得られる文章領域の
構成を示す図。
【図5】上記文章領域の位置座標を示す図。
【図6】上記文章領域の木構造(階層構造)を示す図。
【図7】上記文書処理装置の文書論理要素抽出部による
処理結果を示す図であって、図7(a)は文書画像の部
分領域(レイアウト要素群)、同図(b)はその部分領
域から抽出された文書論理要素領域を示す図。
【図8】上記文書処理装置の読み順設定部による処理結
果を示す図であって、図8(a)はページ単位で読み順
を付した場合、同図(b)はページの連続性に伴って読
み順を付した場合を示す図。
【図9】上記文書処理装置のレイアウト解析部、文字認
識部、文書論理要素抽出部、読み順設定部による処理結
果を示す図であって、図9(a)は文書画像の文書論理
要素領域とその読み順を示す図、同図(b)はその文書
論理要素領域の木構造を示す図、同図(c)はその文書
論理要素領域のデータ構成を示す図。
【図10】上記文書処理装置の文書構造解析部の構成を
示すブロック図。
【図11】上記文書処理装置の不要文書論理要素除去部
によって文書論理要素領域から不要要素(ヘッダとフッ
タ)を除去した結果を示す図。
【図12】上記文書処理装置の文書論理要素グループ化
部による処理結果を示す図。
【図13】上記文書処理装置の文書構造抽出部による処
理結果を示す図。
【図14】上記文書処理装置の文書構造変更部と文書論
理要素統合部による処理結果(その1)を示す図であっ
て、図14(a)は変更前の木構造、同図(b)は変更
後の木構造、同図(c)は文書論理要素統合後の木構造
を示す図。
【図15】上記文書処理装置の文書構造変更部と文書論
理要素統合部による処理結果(その2)を示す図であっ
て、図15(a)は変更前の木構造、同図(b)は変更
後の木構造、同図(c)は文書論理要素統合後の木構造
を示す図。
【図16】上記文書処理装置の文書論理要素統合部によ
る統合処理を説明するための図であって、図16(a)
は統合前の2つの文書論理要素の位置座標を示す図、同
図(b)は2つの文書論理要素を統合した場合を示す
図。
【図17】上記文書処理装置の文書出力部による処理結
果(構造化文書)を示す図。
【符号の説明】
10…文書入力装置 11…レイアウト解析部 12…文字認識部 13…文書論理要素抽出部 14…読み順設定部 15…文書論理要素データ生成部 16…文書構造解析部 17…文書出力部 21…不要文書論理要素除去部 22…文書論理要素グループ化部 23…文書構造抽出部 24…文書構造変更部 25…文書論理要素統合部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 複数ページからなる印刷文書を処理対象
    とし、その印刷文書に対応した文書画像から所定形式の
    構造化文書を生成する文書処理装置であって、 上記文書画像をレイアウト解析して文章領域と図表領域
    に相当する部分画像を抽出するレイアウト解析手段と、 このレイアウト解析手段によって得られた文章領域の部
    分画像から文字を切り出して認識処理する文字認識手段
    と、 この文字認識手段の文字認識結果と上記レイアウト解析
    手段のレイアウト解析結果に基づいて、上記文章領域か
    ら文書見出し、章節見出し、段落、箇条書き、ヘッダ、
    フッタ、図表キャプション、脚注、数式などの文書論理
    要素領域を抽出する文書論理要素抽出手段と、 この文書論理要素抽出手段によって得られた文書論理要
    素領域と上記図表領域の各領域に対して順序付けを行う
    読み順設定手段と、 この読み順設定手段によって設定された各領域の順序と
    領域種別、領域間の配置関係に基づいて上記文書論理要
    素領域と上記図表領域の各領域をグループ化することに
    より文書構造を抽出する文書構造抽出手段と、 この文書構造抽出手段によって得られた文書構造の中で
    グループ化された領域あるいは単独の領域の出現位置を
    変更する文書構造変更手段と、 この文書構造変更手段によって変更された文書構造に基
    づいて所定形式の構造化文書を生成する構造化文書生成
    手段とを具備したことを特徴とする文書処理装置。
  2. 【請求項2】 上記文書構造変更手段は、変更すべき領
    域の位置をオペレータに指定させることを特徴とする請
    求項1記載の文書処理装置。
  3. 【請求項3】 上記文書論理要素抽出手段によって抽出
    された各種文書論理要素の中で特定の文書論理要素を不
    要要素として除去する不要要素除去手段を備えたことを
    特徴とする請求項1記載の文書処理装置。
  4. 【請求項4】 上記文書構造変更手段によって領域の位
    置が変更された際に、その領域の前後に存在する同一属
    性の文書論理要素を統合する要素統合手段を備えたこと
    を特徴とする請求項1記載の文書処理装置。
  5. 【請求項5】 複数ページからなる印刷文書を処理対象
    とし、その印刷文書に対応した文書画像から所定形式の
    構造化文書を生成する文書処理装置であって、 上記文書画像をレイアウト解析して文章領域と図表領域
    に相当する部分画像を抽出するレイアウト解析手段と、 このレイアウト解析手段によって得られた文章領域の部
    分画像から文字を切り出して認識処理する文字認識手段
    と、 この文字認識手段の文字認識結果と上記レイアウト解析
    手段のレイアウト解析結果に基づいて、上記文章領域か
    ら文書見出し、章節見出し、段落、箇条書き、ヘッダ、
    フッタ、図表キャプション、脚注、数式などの文書論理
    要素領域を抽出する文書論理要素抽出手段と、 この文書論理要素抽出手段によって得られた文書論理要
    素領域と上記図表領域の各領域に対して順序付けを行う
    読み順設定手段と、 この読み順設定手段によって設定された各領域の順序と
    領域種別、領域間の配置関係に基づいて上記文書論理要
    素領域と上記図表領域の各領域をグループ化することに
    より文書構造を抽出する文書構造抽出手段と、 この文書構造抽出手段によって得られた文書構造の中で
    上記図表領域に関するグループの出現位置を変更する文
    書構造変更手段と、 この文書構造変更手段によって変更された文書構造に基
    づいて所定形式の構造化文書を生成する構造化文書生成
    手段とを具備したことを特徴とする文書処理装置。
  6. 【請求項6】 上記文書構造変更手段は、上記図表領域
    に関するグループを当該図表が含まれる章節の末尾に配
    置することを特徴とする請求項5記載の文書処理装置。
  7. 【請求項7】 上記文書構造変更手段は、上記図表領域
    に関するグループを文書の末尾に配置することを特徴と
    する請求項5記載の文書処理装置。
  8. 【請求項8】 上記文書構造変更手段は、上記図表領域
    に関するグループを当該図表を最初に参照している文書
    論理要素の直後に配置することを特徴とする請求項5記
    載の文書処理装置。
  9. 【請求項9】 上記文書構造変更手段は、上記図表領域
    に関するグループを当該図表を最も多く参照している文
    書論理要素の直後に配置することを特徴とする請求項5
    記載の文書処理装置。
  10. 【請求項10】 複数ページからなる印刷文書を処理対
    象とし、その印刷文書に対応した文書画像から所定形式
    の構造化文書を生成する文書処理方法であって、 上記文書画像をレイアウト解析して文章領域と図表領域
    に相当する部分画像を抽出し、 このレイアウト解析結果として得られた文章領域の部分
    画像から文字を切り出して認識処理し、 この文字認識結果と上記レイアウト解析結果に基づい
    て、上記文章領域から文書見出し、章節見出し、段落、
    箇条書き、ヘッダ、フッタ、図表キャプション、脚注、
    数式などの文書論理要素領域を抽出し、 上記文書論理要素領域と上記図表領域の各領域に対して
    順序付けを行い、 各領域の順序と領域種別、領域間の配置関係に基づいて
    上記文書論理要素領域と上記図表領域の各領域をグルー
    プ化することにより文書構造を抽出し、 上記文書構造の中でグループ化された領域あるいは単独
    の領域の出現位置を変更し、 この変更後の文書構造に基づいて所定形式の構造化文書
    を生成することを特徴とする文書処理方法。
JP2002093092A 2002-03-28 2002-03-28 文書処理装置及び文書処理方法 Pending JP2003288334A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002093092A JP2003288334A (ja) 2002-03-28 2002-03-28 文書処理装置及び文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002093092A JP2003288334A (ja) 2002-03-28 2002-03-28 文書処理装置及び文書処理方法

Publications (1)

Publication Number Publication Date
JP2003288334A true JP2003288334A (ja) 2003-10-10

Family

ID=29237718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002093092A Pending JP2003288334A (ja) 2002-03-28 2002-03-28 文書処理装置及び文書処理方法

Country Status (1)

Country Link
JP (1) JP2003288334A (ja)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330840A (ja) * 2005-05-23 2006-12-07 Mitsubishi Electric Corp 文書作成支援装置および文書作成支援プログラム
JP2008305088A (ja) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム
JP2009032186A (ja) * 2007-07-30 2009-02-12 Canon Inc 画像処理装置、その制御方法、ならびにそのプログラムおよび記憶媒体
JP2009069933A (ja) * 2007-09-11 2009-04-02 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム
JP2010015335A (ja) * 2008-07-02 2010-01-21 Profield Co Ltd 情報処理装置、情報処理方法、およびプログラム
US7673235B2 (en) 2004-09-30 2010-03-02 Microsoft Corporation Method and apparatus for utilizing an object model to manage document parts for use in an electronic document
US7752632B2 (en) 2004-12-21 2010-07-06 Microsoft Corporation Method and system for exposing nested data in a computer-generated document in a transparent manner
US7770180B2 (en) 2004-12-21 2010-08-03 Microsoft Corporation Exposing embedded data in a computer-generated document
JP2010218249A (ja) * 2009-03-17 2010-09-30 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system
US8122350B2 (en) 2004-04-30 2012-02-21 Microsoft Corporation Packages that contain pre-paginated documents
JP2012514792A (ja) * 2009-01-02 2012-06-28 アップル インコーポレイテッド 文書再構成の方法及びシステム
CN102841890A (zh) * 2011-06-20 2012-12-26 汉王科技股份有限公司 一种用于文档构建的数据加工方法和装置
US8587817B2 (en) 2011-03-28 2013-11-19 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and computer readable medium storing program
CN103514291A (zh) * 2013-09-29 2014-01-15 西安交通大学 一种文本中树形结构数据的显示方法
JP2014013490A (ja) * 2012-07-04 2014-01-23 Nippon Telegr & Teleph Corp <Ntt> 画像領域分割装置、その方法及びプログラム
US8661332B2 (en) 2004-04-30 2014-02-25 Microsoft Corporation Method and apparatus for document processing
JP2014085689A (ja) * 2012-10-19 2014-05-12 Ntt Communications Corp 画像再配置方法、画像再配置システム、および画像再配置プログラム
JP2014164688A (ja) * 2013-02-27 2014-09-08 Kyocera Document Solutions Inc 画像処理装置及びこれを備えた画像形成装置
JP2014527660A (ja) * 2011-12-09 2014-10-16 ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドPeking University Founder Group Co.,Ltd. レイアウトファイルにおける構造化情報の取得方法及び装置
US8886676B2 (en) 2011-01-18 2014-11-11 Apple Inc. Reconstruction of lists in a document
US8959116B2 (en) 2011-01-18 2015-02-17 Apple Inc. Storage of a document using multiple representations
CN111274768A (zh) * 2018-12-04 2020-06-12 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
JP2021033804A (ja) * 2019-08-28 2021-03-01 西日本電信電話株式会社 構造化文書作成装置とその方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122350B2 (en) 2004-04-30 2012-02-21 Microsoft Corporation Packages that contain pre-paginated documents
US8661332B2 (en) 2004-04-30 2014-02-25 Microsoft Corporation Method and apparatus for document processing
US7673235B2 (en) 2004-09-30 2010-03-02 Microsoft Corporation Method and apparatus for utilizing an object model to manage document parts for use in an electronic document
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system
US7752632B2 (en) 2004-12-21 2010-07-06 Microsoft Corporation Method and system for exposing nested data in a computer-generated document in a transparent manner
US7770180B2 (en) 2004-12-21 2010-08-03 Microsoft Corporation Exposing embedded data in a computer-generated document
JP2006330840A (ja) * 2005-05-23 2006-12-07 Mitsubishi Electric Corp 文書作成支援装置および文書作成支援プログラム
JP2008305088A (ja) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム
JP2009032186A (ja) * 2007-07-30 2009-02-12 Canon Inc 画像処理装置、その制御方法、ならびにそのプログラムおよび記憶媒体
JP2009069933A (ja) * 2007-09-11 2009-04-02 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム
JP2010015335A (ja) * 2008-07-02 2010-01-21 Profield Co Ltd 情報処理装置、情報処理方法、およびプログラム
JP2012514792A (ja) * 2009-01-02 2012-06-28 アップル インコーポレイテッド 文書再構成の方法及びシステム
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document
US9575945B2 (en) 2009-01-02 2017-02-21 Apple Inc. Efficient data structures for parsing and analyzing a document
US9460063B2 (en) 2009-01-02 2016-10-04 Apple Inc. Identification, selection, and display of a region of interest in a document
US9063911B2 (en) 2009-01-02 2015-06-23 Apple Inc. Identification of layout and content flow of an unstructured document
US8832549B2 (en) 2009-01-02 2014-09-09 Apple Inc. Identification of regions of a document
US8719701B2 (en) 2009-01-02 2014-05-06 Apple Inc. Identification of guides and gutters of a document
US8892992B2 (en) 2009-01-02 2014-11-18 Apple Inc. Methods for efficient cluster analysis
JP2010218249A (ja) * 2009-03-17 2010-09-30 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8959116B2 (en) 2011-01-18 2015-02-17 Apple Inc. Storage of a document using multiple representations
US8886676B2 (en) 2011-01-18 2014-11-11 Apple Inc. Reconstruction of lists in a document
US8587817B2 (en) 2011-03-28 2013-11-19 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and computer readable medium storing program
CN102841890B (zh) * 2011-06-20 2015-08-26 汉王科技股份有限公司 一种用于文档构建的数据加工方法和装置
CN102841890A (zh) * 2011-06-20 2012-12-26 汉王科技股份有限公司 一种用于文档构建的数据加工方法和装置
JP2014527660A (ja) * 2011-12-09 2014-10-16 ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドPeking University Founder Group Co.,Ltd. レイアウトファイルにおける構造化情報の取得方法及び装置
JP2014013490A (ja) * 2012-07-04 2014-01-23 Nippon Telegr & Teleph Corp <Ntt> 画像領域分割装置、その方法及びプログラム
JP2014085689A (ja) * 2012-10-19 2014-05-12 Ntt Communications Corp 画像再配置方法、画像再配置システム、および画像再配置プログラム
JP2014164688A (ja) * 2013-02-27 2014-09-08 Kyocera Document Solutions Inc 画像処理装置及びこれを備えた画像形成装置
CN103514291A (zh) * 2013-09-29 2014-01-15 西安交通大学 一种文本中树形结构数据的显示方法
CN103514291B (zh) * 2013-09-29 2017-02-08 西安交通大学 一种文本中树形结构数据的显示方法
CN111274768A (zh) * 2018-12-04 2020-06-12 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN111274768B (zh) * 2018-12-04 2022-02-22 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
JP2021033804A (ja) * 2019-08-28 2021-03-01 西日本電信電話株式会社 構造化文書作成装置とその方法

Similar Documents

Publication Publication Date Title
JP2003288334A (ja) 文書処理装置及び文書処理方法
JP4343213B2 (ja) 文書処理装置および文書処理方法
JP3940491B2 (ja) 文書処理装置および文書処理方法
US8260049B2 (en) Model-based method of document logical structure recognition in OCR systems
US8452132B2 (en) Automatic file name generation in OCR systems
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US9098581B2 (en) Method for finding text reading order in a document
JPS61267177A (ja) 文書画像追加情報の蓄積方法
US20040139384A1 (en) Removal of extraneous text from electronic documents
JP4785655B2 (ja) 文書処理装置及び文書処理方法
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
US7046847B2 (en) Document processing method, system and medium
JP5446877B2 (ja) 目次構造特定装置
US9049400B2 (en) Image processing apparatus, and image processing method and program
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2005043990A (ja) 文書処理装置および文書処理方法
Li et al. Extracting figures and captions from scientific publications
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
JP2003186889A (ja) 文書に注釈付けし、文書イメージから要約を生成する方法及び装置
US11775733B2 (en) Device dependent rendering of PDF content including multiple articles and a table of contents
JP2011070529A (ja) 文書処理装置
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060808