JPH10228473A - 文書画像処理方法、文書画像処理装置および記憶媒体 - Google Patents

文書画像処理方法、文書画像処理装置および記憶媒体

Info

Publication number
JPH10228473A
JPH10228473A JP9028955A JP2895597A JPH10228473A JP H10228473 A JPH10228473 A JP H10228473A JP 9028955 A JP9028955 A JP 9028955A JP 2895597 A JP2895597 A JP 2895597A JP H10228473 A JPH10228473 A JP H10228473A
Authority
JP
Japan
Prior art keywords
area
caption
character
link
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9028955A
Other languages
English (en)
Inventor
Takashi Saito
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9028955A priority Critical patent/JPH10228473A/ja
Priority to US09/023,274 priority patent/US6178434B1/en
Publication of JPH10228473A publication Critical patent/JPH10228473A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 キャプションがあるなしに係らず、図、表と
それに関連する本文との間にリンクを自動的に生成し、
ハイパーテキスト化する。 【解決手段】 領域分割手段102は文書画像を文字領
域、図、表などの要素に分割し、キャプション判別手段
103は図、表などのキャプションに相当する文字領域
を判別する。文字認識手段104は文字領域を認識し、
リンク生成手段105は図、表やキャプションと、それ
に関連する本文の該当筒所の間にリンクを生成し、構造
表現手段106によってリンク情報などをHTMLで表
現する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像からハイ
パーテキスト(HTML文書)を自動的に生成する文書
画像処理方法、文書画像処理装置および記憶媒体に関す
る。
【0002】
【従来の技術】入力した文書画像を有効に利用するため
には、文書画像のままでは扱いにくいので、レイアウト
解析技術やOCR等を利用して構造化文書にするのが望
ましい。HTML(Hyper Text Markup Language)
文書はその一例であり、文書内または文書間にリンク関
係を表現することができる。
【0003】文書をハイパーテキスト化する従来技術と
して、例えば、第1の公知例(特開平7−98708号
公報に記載された「文書処理システムおよびその方
法」)では、読み手の意図に従って作成済みの文書を読
み手に適合するように再構成して出力し、またハイパー
文書を構成することにより文書の参照方法を任意に決定
できるシステムがある。
【0004】また、第2の公知例として、藤井他「イメ
ージを対象としたHTML自動生成方式の検討」 電子
通信学会 信学技報 OSF95−23,IE95−5
5(1995−09)では、文書画像(複数ページから
なる)をイメージとして入力し、それをHTML文書と
して扱えるように各ページイメージ毎に与えた属性から
HTML文書を自動生成する方法がある。
【0005】さらに、第3の公知例として、大開他「電
子図書館構築のための印刷文書のハイパーテキスト化」
画像の認識・理解シンポジウム(MIRU’96)1
996年7月、および小山他「適用性を高めた印刷文書
の論理構造化の一手法」 電子情報通信学会1995年
総合大会 D‐581がある。これら2つの論文に記載
されている手法では、まず抽出した文字領域と図領域を
コラム位置の推測によって文字ブロックと図表ブロック
に識別し、図表ブロックに含まれているキャプションの
文字認識結果により図表番号をラベルとして与える。そ
して本文中の参照箇所(「図1」などの単語)を検出
し、HTML形式でリンク表現を生成する。
【0006】
【発明が解決しようとする課題】しかし、上記した第1
の例では、読み手の意図、レベル、状況に合わせて文書
を再構成するために、文書を部品化、構造化、ハイパー
テキスト化しているが、特に、図と本文との間にリンク
が生成されていない。また、入力文書画像からの当該リ
ンクの自動生成についても記載されておらず、当該リン
クを生成することはできない。
【0007】また、第2の例では、生成したHTML文
書はページイメージを単位としており、ページ内の図と
本文の間のリンクなどが生成されない。
【0008】さらに、第3の例では、キャプションを検
出するためにはコラムの存在が必要であり、またキャプ
ションが存在しない場合には図表などと関連する本文の
間にリンクを生成することができない。
【0009】本発明の目的は、キャプションがあるなし
に係らず、図、表とそれに関連する本文との間にリンク
を自動的に生成し、ハイパーテキスト化する文書画像処
理方法、文書画像処理装置および記憶媒体を提供するこ
とにある。
【0010】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像を、文字領域、
図、表(以下、図表)領域を含む要素に分割し、該図表
領域とその近傍の文字領域との位置関係を基に該図表に
関連するキャプションがあるか否かを検出し、該キャプ
ションが検出されたとき、該キャプション内から前記図
表に関連する所定の文字列を検出し、該検出された文字
列と同一の文字列を前記文字領域から検出し、前記キャ
プション内の文字列と前記文字領域内の文字列との間に
リンクを生成することを特徴としている。
【0011】請求項2記載の発明では、前記図表に関連
する所定の文字列は、図表の番号であることを特徴とし
ている。
【0012】請求項3記載の発明では、文書画像を、文
字領域、図表領域を含む要素に分割し、該図表領域とそ
の近傍の文字領域との位置関係を基に該図表に関連する
キャプションがあるか否かを検出し、該キャプションが
検出されないとき、前記図表に関連する所定の文字列
を、前記文字領域から検出し、該文字領域内の文字列と
前記図表との間にリンクを生成することを特徴としてい
る。
【0013】請求項4記載の発明では、前記図表に関連
する所定の文字列は、レイアウトに関する表現であるこ
とを特徴としている。
【0014】請求項5記載の発明では、前記リンク生成
された文書画像をハイパーテキスト化することを特徴と
している。
【0015】請求項6記載の発明では、文書画像を入力
する手段と、該入力された文書画像を、文字領域、図表
領域を含む所定の領域に分割する手段と、該文字領域内
の文字を認識する手段と、前記図表と文字との間に、ま
たは文字間にリンクを生成する手段と、該リンク生成さ
れた文書画像をハイパーテキスト化する手段と、該生成
したリンクを用いてハイパーテキストを表示する手段と
を備えたことを特徴としている。
【0016】請求項7記載の発明では、文書画像を、文
字領域、図表領域を含む要素に分割する機能と、該図表
領域とその近傍の文字領域との位置関係を基に該図表に
関連するキャプションがあるか否かを検出する機能と、
該キャプションが検出されたとき、該キャプション内か
ら前記図表に関連する所定の文字列を検出する機能と、
該検出された文字列と同一の文字列を前記文字領域から
検出する機能と、前記キャプション内の文字列と前記文
字領域内の文字列との間にリンクを生成する機能と、前
記キャプションが検出されないとき、前記図表に関連す
る所定の文字列を、前記文字領域から検出する機能と、
該文字領域内の文字列と前記図表との間にリンクを生成
する機能と、該リンク生成された文書画像をハイパーテ
キスト化する機能と、該生成したリンクを用いてハイパ
ーテキストを表示する機能をコンピュータに実現させる
ためのプログラムを記憶したことを特徴としている。
【0017】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。図において、101は画像の入力手段、10
2は文書画像を文字領域などの要素に分割する領域分割
手段、103は図表などのキャプションに相当する文字
領域を判別するキャプション判別手段、104は文字行
の抽出処理、文字の切り出し処理を含む文字領域の文字
を認識する文字認識手段、105は図表やキャプション
と、それに関連する本文の該当筒所の間にリンクを生成
するリンク生成手段、106はこれらリンク情報や文字
コード情報など抽出した情報をHTMLなどで表現する
構造表現手段、107は全体の制御部、108は入力さ
れた画像データ、領域データ、文字データなど各種デー
タを記憶するデータ記憶部、109はデータ通信路、1
10は通信回線に接続されたモデムである。
【0018】図2は、本発明の処理フローチャートを示
す。以下、図2を参照しながら本発明の処理動作を説明
する。まず、画像入力手段101によって文書画像を得
る(ステップ201)。この画像入力手段はスキャナ、
ファツクスなどであり、またネットワーク経由で別の機
器から画像を得るようにしてもよい。
【0019】次に、入力された文書画像を、領域分割手
段102によって文字領域と図、表、罫線等の要素に分
割する(ステップ202)。この領域分割方法として
は、例えば特開平6−20092号公報に記載された公
知技術を用いればよい。抽出した領域は、属性として要
素の種類(文字領域、図、表など)、その位置(領域の
外接矩形など)、領域番号などを持つ。
【0020】領域情報が抽出されると、キャプション判
別手段103はキャプションの判別を行う(ステップ2
03)。図3は、ステップ203のキャプション判別処
理の詳細なフローチャートを示す。また、図4は、文書
画像が領域分割された例を示す。図において、各領域4
01、402、404、405は文字領域であり、40
3は図または表である。以下、図4を例に、キャプショ
ン判別処理を説明する。図、表、または図、表以外でキ
ャプションを持つものを処理対象とする(ステップ30
2)。図4の例では、図または表の領域403が処理対
象となる。
【0021】各処理対象毎に以下の処理を行う。まず、
キャプション候補となる文字領域を検出する(ステップ
303)。これは、文字領域の高さ、処理対象となる図
または表との位置関係などの特徴量を基に検出する。図
5は、ステップ303の詳細なフローチャートを示す。
例えば、文字領域の高さの絶対値が所定の閾値以内にあ
ること、および/または、文字領域の高さとページ全体
の標準文字サイズとの比が所定の閾値以内にあること
(ステップ501)、また、位置関係としては図、表領
域403と文字領域404との距離406が所定の閾値
以内にあること(ステップ502)、図、表領域403
と文字領域404との左右(または上下)のずれ40
7、408などが所定の閾値以内であること(ステップ
503)が、キャプション候補となる条件であるとす
る。なお、図4の例では、図表の上下にあるキャプショ
ンを例にしているが、左右にある場合も同様である。
【0022】図3のフローチャートに戻り、次に、近傍
文字領域との位置関係を調べる(ステップ304)。図
6は、ステップ304の詳細なフローチャートを示す。
図4では、キャプション侯補404の近傍に文字領域4
05が存在する(ステップ601でYes)。この2つ
の文字領域が一つの文章を構成するものである場合は、
キャプション侯補404が図、表領域403に近い位置
にあっても、キャプションとならない。従って、以下の
ステップではその関係を調べる。
【0023】すなわち、キャプション侯補404と近傍
文字領域405との距離409、ずれ410、411を
調ベ、いずれか1つないし複数の値が所定の閾値より大
きい場合(ステップ602でNo)、また距離409が
距離406に比べて十分に大きい場合(ステップ603
でNo)にはキャプションと判定し、この近傍文字領域
405は無視してよい。そうでない場合は(ステップ6
03でYes)、キャプション侯補404をキャプショ
ンと判定しない。
【0024】文字領域402がキャプション候補の位置
にあるが、近傍文字領域401と文字領域402の位置
関係が、ステップ602、603の条件を満たすので、
文字領域402を非キャプションと判定する。
【0025】以上の処理を繰り返し、対象領域全てにつ
いて処理を終えたらこの処理が終了する(ステップ30
1)。上記したように判定された各キャプション領域
は、どの対象領域のキャプションであるのかというキャ
プション情報をデータ記憶部108に保持しておく。つ
まり、例えば、図、表の領域番号403と、キャプショ
ン領域の領域番号404とをペアにした情報がデータ記
憶部108に格納される。
【0026】次に、文字認識手段104は、各文字領域
から文字行を切り出し、文字行から各文字を切り出し、
文字認識処理を行う(ステップ204)。次に、リンク
生成手段105は、ステップ203で求めたキャプショ
ンと、キャプション以外の文字領域(以下、本文)の関
連箇所の間にリンクを生成する(ステップ205)。ま
ず、キャプション情報を基にキャプションを求め、該キ
ャプションに含まれる図などの番号を、文字認識結果か
ら求める。例えば、「図1」、「第1図」などの図番で
ある。次いで、本文中の同一表現箇所を文字認識結果か
ら検出する。該当する箇所が検出されたら、当該箇所と
キャプションとの間にリンクを生成する。
【0027】続いて、リンク生成手段105は、図、表
などと本文の間の直接的なリンクを生成する(ステップ
206)。ところで、図、表などが上記したように必ず
キャプションを持つとは限らない。そこで、本文中の
「上図」、「左表」などのように、図、表を表現し、な
おかつレイアウト的な情報(上、左などの位置的表現)
を含む表現を検出する。本文中の上記した表現の位置
と、近傍の図表などの位置は、ステップ202およびス
テップ204で得た領域の位置情報や文字切り出し、認
識結果の位置情報として得られる。したがって、本文中
の上記した表現位置から見て、「上」、「下」、あるい
は「左」などで、最も近傍にある図や表などの該当する
領域を検出し、これら図、表などと本文の該当箇所との
間にリンクを生成する(ステップ206)。最後に、構
造表現手段106は上記処理の結果を構造化表現する
(ステップ207)。リンク関係を表現できる形式とし
ては、例えばHTMLがある。これらリンク情報や文字
コード情報など抽出した情報を上記した形式に変換す
る。
【0028】なお、本発明は上記したものに限定され
ず、ソフトウェアによっても実現することができる。本
発明をソフトウェアによって実現する場合には、図7に
示すように、CPU、ROM、RAM、表示装置、ハー
ドディスク、キーボード、CD−ROMドライブ、モデ
ムなどからなる汎用の処理装置を用意し、CD−ROM
などのコンピュータ記憶媒体には、本発明の文書画像の
処理機能を実現するプログラムが記録されている。
【0029】ハードディスクなどには、本発明の文書画
像処理機能によって、入力文書画像がハイパーテキスト
化されて格納されているので、その文書画像を読み出
し、表示装置に表示し、例えばアンダーラインで示され
た「図3」をマウスでクリックすることにより、「図
3」にリンクされた図が表示される。また、同様に、例
えば「上図」をクリックすると、「上図」にリンクされ
た図が表示される。
【0030】
【発明の効果】以上、説明したように、本発明によれ
ば、入力文書画像をハイパーテキストで表現して利用す
るシステムにおいて、文書画像に含まれる図、表に関連
するキャプションがある場合には、キャプション内の文
字列と本文中の関連箇所との間に自動的にリンクを生成
することができ、また、キャプションがない場合には、
図、表とその図、表に関連する本文中の箇所との間に自
動的にリンクを生成することができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の処理フローチャートを示す。
【図3】ステップ203のキャプション判別処理の詳細
なフローチャートを示す。
【図4】文書画像が領域分割された例を示す。
【図5】ステップ303の詳細なフローチャートを示
す。
【図6】ステップ304の詳細なフローチャートを示
す。
【図7】本発明をソフトウェアによって実現する場合の
構成例を示す。
【符号の説明】
101 画像入力手段 102 領域分割手段 103 キャプション判別手段 104 文字認識手段 105 リンク生成手段 106 構造表現手段 107 制御部 108 データ記憶部 109 データ通信路 110 モデム

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を、文字領域、図、表(以下、
    図表)領域を含む要素に分割し、該図表領域とその近傍
    の文字領域との位置関係を基に該図表に関連するキャプ
    ションがあるか否かを検出し、該キャプションが検出さ
    れたとき、該キャプション内から前記図表に関連する所
    定の文字列を検出し、該検出された文字列と同一の文字
    列を前記文字領域から検出し、前記キャプション内の文
    字列と前記文字領域内の文字列との間にリンクを生成す
    ることを特徴とする文書画像処理方法。
  2. 【請求項2】 前記図表に関連する所定の文字列は、図
    表の番号であることを特徴とする請求項1記載の文書画
    像処理方法。
  3. 【請求項3】 文書画像を、文字領域、図表領域を含む
    要素に分割し、該図表領域とその近傍の文字領域との位
    置関係を基に該図表に関連するキャプションがあるか否
    かを検出し、該キャプションが検出されないとき、前記
    図表に関連する所定の文字列を、前記文字領域から検出
    し、該文字領域内の文字列と前記図表との間にリンクを
    生成することを特徴とする文書画像処理方法。
  4. 【請求項4】 前記図表に関連する所定の文字列は、レ
    イアウトに関する表現であることを特徴とする請求項2
    記載の文書画像処理方法。
  5. 【請求項5】 前記リンク生成された文書画像をハイパ
    ーテキスト化することを特徴とする請求項1または2記
    載の文書画像処理方法。
  6. 【請求項6】 文書画像を入力する手段と、該入力され
    た文書画像を、文字領域、図表領域を含む所定の領域に
    分割する手段と、該文字領域内の文字を認識する手段
    と、前記図表と文字との間に、または文字間にリンクを
    生成する手段と、該リンク生成された文書画像をハイパ
    ーテキスト化する手段と、該生成したリンクを用いてハ
    イパーテキストを表示する手段とを備えたことを特徴と
    する文書画像処理装置。
  7. 【請求項7】 文書画像を、文字領域、図表領域を含む
    要素に分割する機能と、該図表領域とその近傍の文字領
    域との位置関係を基に該図表に関連するキャプションが
    あるか否かを検出する機能と、該キャプションが検出さ
    れたとき、該キャプション内から前記図表に関連する所
    定の文字列を検出する機能と、該検出された文字列と同
    一の文字列を前記文字領域から検出する機能と、前記キ
    ャプション内の文字列と前記文字領域内の文字列との間
    にリンクを生成する機能と、前記キャプションが検出さ
    れないとき、前記図表に関連する所定の文字列を、前記
    文字領域から検出する機能と、該文字領域内の文字列と
    前記図表との間にリンクを生成する機能と、該リンク生
    成された文書画像をハイパーテキスト化する機能と、該
    生成したリンクを用いてハイパーテキストを表示する機
    能をコンピュータに実現させるためのプログラムを記憶
    した記憶媒体。
JP9028955A 1997-02-13 1997-02-13 文書画像処理方法、文書画像処理装置および記憶媒体 Pending JPH10228473A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9028955A JPH10228473A (ja) 1997-02-13 1997-02-13 文書画像処理方法、文書画像処理装置および記憶媒体
US09/023,274 US6178434B1 (en) 1997-02-13 1998-02-13 Anchor based automatic link generator for text image containing figures

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9028955A JPH10228473A (ja) 1997-02-13 1997-02-13 文書画像処理方法、文書画像処理装置および記憶媒体

Publications (1)

Publication Number Publication Date
JPH10228473A true JPH10228473A (ja) 1998-08-25

Family

ID=12262847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9028955A Pending JPH10228473A (ja) 1997-02-13 1997-02-13 文書画像処理方法、文書画像処理装置および記憶媒体

Country Status (2)

Country Link
US (1) US6178434B1 (ja)
JP (1) JPH10228473A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091950A (ja) * 2000-09-12 2002-03-29 Minolta Co Ltd 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
JP2002091944A (ja) * 2000-09-12 2002-03-29 Minolta Co Ltd 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
JP2007272884A (ja) * 2006-03-17 2007-10-18 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
JP2010020468A (ja) * 2008-07-09 2010-01-28 Canon Inc 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
US7715625B2 (en) 2004-04-01 2010-05-11 Fuji Xerox Co., Ltd. Image processing device, image processing method, and storage medium storing program therefor
JP2010182206A (ja) * 2009-02-06 2010-08-19 Canon Inc 画像処理装置および画像処理方法
EP2224359A2 (en) 2009-02-27 2010-09-01 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer program
JP2011158929A (ja) * 2010-01-29 2011-08-18 Hitachi-Ge Nuclear Energy Ltd 図書閲覧システム,装置及び方法
JP2012018489A (ja) * 2010-07-06 2012-01-26 Canon Inc 画像処理装置、画像処理方法、及びプログラム
JP2012018576A (ja) * 2010-07-08 2012-01-26 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP2012033151A (ja) * 2010-07-06 2012-02-16 Canon Inc 画像処理装置、画像処理方法、及びプログラム
JP2012054825A (ja) * 2010-09-02 2012-03-15 Fuji Xerox Co Ltd 図形領域取得装置及びプログラム
US8614838B2 (en) 2010-01-05 2013-12-24 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2014197341A (ja) * 2013-03-29 2014-10-16 富士フイルム株式会社 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム
JP2015225377A (ja) * 2014-05-26 2015-12-14 京セラドキュメントソリューションズ株式会社 文書処理装置及び文書処理プログラム
JP6456539B1 (ja) * 2018-03-30 2019-01-23 Psp株式会社 レポート作成装置、レポート作成装置の制御方法、およびプログラム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US7013298B1 (en) 1996-07-30 2006-03-14 Hyperphrase Technologies, Llc Method and system for automated data storage and retrieval
US6516321B1 (en) 1996-07-30 2003-02-04 Carlos De La Huerga Method for database address specification
US6434567B1 (en) 1996-07-30 2002-08-13 Carlos De La Huerga Method for specifying enterprise-wide database address formats
US6820093B2 (en) 1996-07-30 2004-11-16 Hyperphrase Technologies, Llc Method for verifying record code prior to an action based on the code
US6766494B1 (en) * 1998-06-15 2004-07-20 Fuji Xerox Co., Ltd. Method and system for creating ad-hoc links from free-form ink
JP3789244B2 (ja) * 1998-07-28 2006-06-21 富士通株式会社 ハイパーテキスト表示装置およびハイパーテキスト表示システム
US6687876B1 (en) * 1998-12-30 2004-02-03 Fuji Xerox Co., Ltd. Method and system for maintaining freeform ink annotations on changing views
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
US20050108219A1 (en) * 1999-07-07 2005-05-19 Carlos De La Huerga Tiered and content based database searching
US6507837B1 (en) 2000-06-08 2003-01-14 Hyperphrase Technologies, Llc Tiered and content based database searching
US7130861B2 (en) 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
NZ536775A (en) * 2002-05-20 2007-11-30 Tata Infotech Ltd Document structure identifier
US20060104511A1 (en) * 2002-08-20 2006-05-18 Guo Jinhong K Method, system and apparatus for generating structured document files
JP2004201069A (ja) * 2002-12-19 2004-07-15 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記憶した記録媒体
US20040169684A1 (en) * 2003-02-28 2004-09-02 Dave Orth Linking images for navigation
JP4200106B2 (ja) 2003-07-15 2008-12-24 株式会社リコー 画像処理装置、画像処理方法、コンピュータプログラム、及びコンピュータプログラムを記憶する記憶媒体
US20120102020A1 (en) * 2003-12-04 2012-04-26 Mark Pearson Generating Search Result Listing with Anchor Text Based Description of Website Corresponding to Search Result
US7571174B2 (en) * 2003-12-31 2009-08-04 Thomson Reuters Global Resurces Systems, methods, interfaces and software for automated collection and integration of entity data into online databases and professional directories
US8170289B1 (en) * 2005-09-21 2012-05-01 Google Inc. Hierarchical alignment of character sequences representing text of same source
JP4915219B2 (ja) * 2006-11-24 2012-04-11 富士通株式会社 ハイパーテキスト変換プログラム、方法及び装置
JP5733907B2 (ja) * 2010-04-07 2015-06-10 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US9678953B2 (en) * 2013-06-11 2017-06-13 Facebook, Inc. Translation and integration of presentation materials with cross-lingual multi-media support
US20140365203A1 (en) * 2013-06-11 2014-12-11 Facebook, Inc. Translation and integration of presentation materials in cross-lingual lecture support
US9892115B2 (en) * 2013-06-11 2018-02-13 Facebook, Inc. Translation training with cross-lingual multi-media support
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
US20180293438A1 (en) * 2015-12-02 2018-10-11 Halliburton Energy Services, Inc. Creation of Digital Representations of Well Schematics

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4723211A (en) * 1984-08-30 1988-02-02 International Business Machines Corp. Editing of a superblock data structure
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
JPH0798708A (ja) 1992-09-30 1995-04-11 Hitachi Ltd 文書処理システムおよびその方法
US5809317A (en) * 1992-12-30 1998-09-15 Intel Corporation Creating and maintaining hypertext links among heterogeneous documents by the establishment of anchors and connections among anchors
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
US5659639A (en) * 1993-11-24 1997-08-19 Xerox Corporation Analyzing an image showing editing marks to obtain category of editing operation
GB9426165D0 (en) * 1994-12-23 1995-02-22 Anthony Andre C Method of retrieving and displaying data
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
US5745360A (en) * 1995-08-14 1998-04-28 International Business Machines Corp. Dynamic hypertext link converter system and process
US5761683A (en) * 1996-02-13 1998-06-02 Microtouch Systems, Inc. Techniques for changing the behavior of a link in a hypertext document
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091944A (ja) * 2000-09-12 2002-03-29 Minolta Co Ltd 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
US7203364B2 (en) 2000-09-12 2007-04-10 Minolta Co., Ltd. Image processing apparatus, image editing apparatus, image editing method, and image editing program
JP2002091950A (ja) * 2000-09-12 2002-03-29 Minolta Co Ltd 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
JP4599693B2 (ja) * 2000-09-12 2010-12-15 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
US7715625B2 (en) 2004-04-01 2010-05-11 Fuji Xerox Co., Ltd. Image processing device, image processing method, and storage medium storing program therefor
US8024364B2 (en) 2006-03-17 2011-09-20 Proquest Llc Method and system to search objects in published literature for information discovery tasks
JP2007272884A (ja) * 2006-03-17 2007-10-18 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
US7765199B2 (en) 2006-03-17 2010-07-27 Proquest Llc Method and system to index captioned objects in published literature for information discovery tasks
JP2010020468A (ja) * 2008-07-09 2010-01-28 Canon Inc 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
US8320019B2 (en) 2008-07-09 2012-11-27 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer program thereof
US8493595B2 (en) 2009-02-06 2013-07-23 Canon Kabushiki Kaisha Image processing apparatus, image processing method, program, and storage medium
JP2010182206A (ja) * 2009-02-06 2010-08-19 Canon Inc 画像処理装置および画像処理方法
EP2224359A2 (en) 2009-02-27 2010-09-01 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and computer program
US8411960B2 (en) 2009-02-27 2013-04-02 Canon Kabushiki Kaisha Image processing for generating electronic document data in which an object can be searched from an input image
US8614838B2 (en) 2010-01-05 2013-12-24 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2011158929A (ja) * 2010-01-29 2011-08-18 Hitachi-Ge Nuclear Energy Ltd 図書閲覧システム,装置及び方法
JP2012033151A (ja) * 2010-07-06 2012-02-16 Canon Inc 画像処理装置、画像処理方法、及びプログラム
JP2012018489A (ja) * 2010-07-06 2012-01-26 Canon Inc 画像処理装置、画像処理方法、及びプログラム
US8514462B2 (en) 2010-07-06 2013-08-20 Canon Kabushiki Kaisha Processing document image including caption region
JP2012018576A (ja) * 2010-07-08 2012-01-26 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP2012054825A (ja) * 2010-09-02 2012-03-15 Fuji Xerox Co Ltd 図形領域取得装置及びプログラム
JP2014197341A (ja) * 2013-03-29 2014-10-16 富士フイルム株式会社 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム
JP2015225377A (ja) * 2014-05-26 2015-12-14 京セラドキュメントソリューションズ株式会社 文書処理装置及び文書処理プログラム
JP6456539B1 (ja) * 2018-03-30 2019-01-23 Psp株式会社 レポート作成装置、レポート作成装置の制御方法、およびプログラム
JP2019179451A (ja) * 2018-03-30 2019-10-17 Psp株式会社 レポート作成装置、レポート作成装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
US6178434B1 (en) 2001-01-23

Similar Documents

Publication Publication Date Title
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
US6353840B2 (en) User-defined search template for extracting information from documents
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
AU2009200633B2 (en) Image processing apparatus, image processing method and image processing program
JP2000194850A (ja) ユ―ザ囲み領域の抽出装置及び抽出方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
WO2004090743A2 (en) Enhanced readability with flowed bitmaps
CN112069991A (zh) 一种pdf的表格信息提取方法及相关装置
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP4232679B2 (ja) 画像形成装置およびプログラム
KR101248449B1 (ko) 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
Rahman et al. Conversion of PDF documents into HTML: a case study of document image analysis
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JPH1166196A (ja) 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN116682118A (zh) 一种古文字识别方法、系统、终端及介质
JP2009087270A (ja) 画像処理装置及びプログラム
US8077977B2 (en) Image processing system, image processing method, computer readable medium and computer data signal
JPH09319747A (ja) 文書画像の構造化方法
JPH103483A (ja) 情報検索装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060419