JP2003346146A - 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置 - Google Patents

図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置

Info

Publication number
JP2003346146A
JP2003346146A JP2002149768A JP2002149768A JP2003346146A JP 2003346146 A JP2003346146 A JP 2003346146A JP 2002149768 A JP2002149768 A JP 2002149768A JP 2002149768 A JP2002149768 A JP 2002149768A JP 2003346146 A JP2003346146 A JP 2003346146A
Authority
JP
Japan
Prior art keywords
data
group
chart
extracting
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002149768A
Other languages
English (en)
Inventor
Ikuo Azuma
郁雄 東
Kazushige Minomaki
数成 箕牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2002149768A priority Critical patent/JP2003346146A/ja
Publication of JP2003346146A publication Critical patent/JP2003346146A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 電子ドキュメントの中から必要とする図表デ
ータのみを簡単に、且つ的確に特定し、抽出することの
できる、新しい図表データ特定・抽出プログラム、及び
当該特定・抽出プログラムを記録したコンピュータ読み
取り可能な記録媒体、並びに図表データ特定・抽出装置
を提供する。 【解決手段】 電子ドキュメント(10)中の図表デー
タを特定するためにコンピュータを、電子ドキュメント
(10)の構成要素データを抽出する構成要素データ抽
出手段(1)、および、構成要素データ抽出手段(1)
による構成要素データ中の基本図形矩形領域データを用
いて、基本図形矩形領域が接する場合にそれらを一つの
グループにまとめ、当該グループ同士が接する場合にそ
れらをさらに大きな一つのグループにまとめ、当該グル
ープ同士が一つも接しなくなるまでグループ化を繰り返
し、最後にまとめられた他のいずれのグループとも接し
ないグループを図表データとして特定する図表データ特
定手段(2)、として機能させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この出願の発明は、図表デー
タ検索システム等に有用な、電子ドキュメントの中から
必要とする図表データのみを簡単に、且つ的確に特定
し、抽出することのできる、新しい図表データ特定・抽
出プログラム、及び当該特定・抽出プログラムを記録し
たコンピュータ読み取り可能な記録媒体、並びに図表デ
ータ特定・抽出装置に関するものである。
【0002】
【従来の技術】近年のコンピュータ技術の発展に伴い、
様々な場面においてパソコン等を用いて電子化されたド
キュメントが活用されてきている。かかる電子ドキュメ
ントは、新しく作成される度にパソコンの記憶手段やデ
ータベース等に蓄積され、膨大な電子文書資源となる。
【0003】一方で、一度作成された電子ドキュメント
は再利用されることが多く、中でも図面、表、グラフ等
の図表データについては、文章データに比べて白紙状態
からの作成には時間がかかるため、旧電子ドキュメント
から抜き出して新電子ドキュメント内にてそのまま再利
用したり、共通部分が多い場合には旧図表データを基に
修正を加えて再利用したりすることがしばしば行われて
いる。
【0004】したがって、電子ドキュメントから図表デ
ータのみを特定し、抽出できる技術が実現されれば、電
子文書資源の有効利用を図ることができる。
【0005】この図表データ特定・抽出技術としては、
既に、以下のものが提案されている。
【0006】[1]Yanping Zhou, Chew Lim Tan : "Chart
analysis and recognition in document images", Pro
c. Sixth International conference on Document Anal
ysisand Recognition, pp.1055-1058, 2001 [2]Saitoh, Yamaai et al. : "Document Image Segment
ation and Layout Analysis (Special Issue on Docume
nt Analysis and Recognition)", IEICE transactions
on information and systems, Vol.E77-D, No.7, pp.77
8-784, 1994 [3]平山:「複雑なカラム構造をもつ文書イメージの領
域分割法」,電子情報通信学会論文誌,Vol.J79-D-2, N
o.11, pp.1790-1799, 1996.11 [4]岩崎,黄:「文書中の図領域検索方式の提案」,情
報処理学会全国大会講演論文集,Vol.第55回平成9年
後期,No.3, pp.196-197, 1997
【0007】
【発明が解決しようとする課題】しかしながら、これら
の従来技術には以下のような問題点がある。
【0008】すなわち、上記[1][2][3][4]のものはいず
れも、文書を画像データとして扱いその画像データから
図表領域を特定し抽出する技術であるが、スキャナで取
り込んだ文書のみを対象としているため、パソコンにて
文書作成ツールを使って作成された電子ドキュメントか
らは図表データを抽出不可能なのである。
【0009】そこで、この出願の発明は、以上のとおり
の事情に鑑み、電子ドキュメントの中から必要とする図
表データのみを簡単に、且つ的確に特定し、抽出するこ
とのできる、全く新しい図表データ特定・抽出プログラ
ム、及び当該特定・抽出プログラムを記録したコンピュ
ータ読み取り可能な記録媒体、並びに図表データ特定・
抽出装置を提供することを課題としている。
【0010】
【課題を解決するための手段】この出願の発明は、上記
の課題を解決するものとして、電子ドキュメント中の図
表データを特定するためにコンピュータを、電子ドキュ
メントの構成要素データを抽出する構成要素データ抽出
手段、および、構成要素データ抽出手段による構成要素
データ中の基本図形矩形領域データを用いて、基本図形
矩形領域が接する場合にそれらを一つのグループにまと
め、当該グループ同士が接する場合にそれらをさらに大
きな一つのグループにまとめ、当該グループ同士が一つ
も接しなくなるまでグループ化を繰り返し、最後にまと
められた他のいずれのグループとも接しないグループを
図表データとして特定する図表データ特定手段、として
機能させるための図表データ特定プログラムを提供する
(請求項1)。
【0011】また、前記コンピュータを、前記構成要素
データ抽出手段による構成要素データ中の基本図形種類
データや基本図形矩形領域データを用いて、前記図表デ
ータ特定手段により図表データとして特定されたグルー
プから、テキストデータのみ有するグループや、テキス
トデータ以外の種類のデータを1つのみ有し、且つそれ
がイメージデータ以外であるグループ、を削除する非図
表データ削除手段、としてさらに機能させるための図表
データ特定プログラムをも提供する(請求項2〜4)。
【0012】さらにまた、電子ドキュメントから図表デ
ータを特定して抽出するために、前記コンピュータを、
前記構成要素データ抽出手段および前記図表データ特定
手段ならびに前記非図表データ削除手段に加えて、前記
図表データ特定手段により図表データとして特定された
グループを電子ドキュメントから抽出する図表データ抽
出手段、もしくは前記非図表データ削除手段によるグル
ープ削除後の残りグループを電子ドキュメントから抽出
する図表データ抽出手段、としてさらに機能させるため
の図表データ抽出プログラムをも提供する(請求項5〜
8)。
【0013】もちろん、この出願の発明は、上記図表デ
ータ特定・抽出プログラムを記録したコンピュータ読み
取り可能な記録媒体をも提供する(請求項9〜16)。
【0014】そしてまた、この出願の発明は、電子ドキ
ュメント中の図表データを特定する装置として、電子ド
キュメントの構成要素データを抽出する構成要素データ
抽出手段、および、構成要素データ抽出手段による構成
要素データ中の基本図形矩形領域データを用いて、基本
図形矩形領域が接する場合にそれらを一つのグループに
まとめ、当該グループ同士が接する場合にそれらをさら
に大きな一つのグループにまとめ、当該グループ同士が
一つも接しなくなるまでグループ化を繰り返し、最後に
まとめられた他のいずれのグループとも接しないグルー
プを図表データとして特定する図表データ特定手段、か
らなる図表データ特定装置を提供する(請求項17)。
【0015】また、前記構成要素データ抽出手段による
構成要素データ中の基本図形種類データや基本図形矩形
領域データを用いて、前記図表データ特定手段により図
表データとして特定されたグループから、テキストデー
タのみ有するグループや、テキストデータ以外の種類の
データを1つのみ有し、且つそれがイメージデータ以外
であるグループ、を削除する非図表データ削除手段、を
さらに有する図表データ特定装置を提供する(請求項1
8〜20)。
【0016】また、電子ドキュメントから図表データを
特定して抽出するために、前記構成要素データ抽出手段
および前記図表データ特定手段ならびに前記非図表デー
タ削除手段に加えて、前記図表データ特定手段により図
表データとして特定されたグループを電子ドキュメント
から抽出する図表データ抽出手段、もしくは前記非図表
データ削除手段によるグループ削除後の残りグループを
電子ドキュメントから抽出する図表データ抽出手段、を
さらに有する図表データ抽出装置をも提供する(請求項
21〜24)。
【0017】
【発明の実施の形態】図1および図2は、各々、この出
願の発明を説明するための機能ブロック図および処理フ
ロー図である。以下に、これら図1および図2に沿って
この出願の発明の実施の形態について説明する。
【0018】<構成要素データ抽出>まず、対象とする
電子ドキュメント(10)から、電子ドキュメント(1
0)を構成する要素データであるいわゆる構成要素デー
タを抽出する(構成要素データ抽出手段(1)、ステッ
プS1)。
【0019】この構成要素データは、対象電子ドキュメ
ント(10)のデータ形式(=データフォーマット)の
種類に応じて異なるため、フォーマット毎に抽出処理の
設定を予め決めておく必要があり、その設定に従ってフ
ォーマットの種類に応じた構成要素データ抽出処理が実
行される。たとえば、PDFフォーマットやPowerPointフ
ォーマットの電子ドキュメント(10)(他のフォーマ
ットからPDF, PowerPointフォーマットに変換可能なも
のを含む)については、既存のAPIやSDKを利用して構成
要素データを抽出することができる。
【0020】<図表データ特定>以上により抽出された
構成要素データに基づき、図表データを特定する(図表
データ特定手段(2)、ステップS2)。
【0021】電子ドキュメント(10)における構成要
素データ(描画データとも呼ぶ)は、直接図表領域を表
わす情報をもっているのではなく、実際には図表を構成
する最小単位である基本図形の情報しかもっていない。
各基本図形は、その種類(四角、線分、矢印、テキス
ト、イメージなど)や、その矩形領域の座標・サイズと
いった情報を持っている。この基本図形が複数集まった
ものを一つの図表として我々が見ているだけであり、描
画データの中には、図表の範囲を直接示すデータは存在
しない。このため、独立して存在する基本図形の集合か
ら、何らかの方法で一つのまとまりをもった図表として
識別しなおす必要がある。
【0022】そこで、我々が普段図表を作成するプロセ
スを考察すると、基本図形を順に作成しながら、それら
を重ねて配置したり、接して配置したり、接していない
が近くに配置したりすることが分かるので、このことに
基づき以下の具体的手法で図表データの特定を行う。
【0023】まず、構成要素データ中に含まれる基本図
形の矩形領域データを用いて、各基本図形の矩形領域同
士が接するか否かを判別し、接し合う矩形領域を一つの
グループにまとめる(小グループ化手段(21)、ステ
ップS21))。このとき、矩形領域に対して、その領
域面積の0〜数%(たとえば15%)程度のマージン幅
を領域周囲に付加しておくことが、特定・抽出精度のよ
り一層の向上という観点から好ましい。また、ここでの
接する状態とは、領域辺が接触する状態だけでなく、領
域の一部または全部が互いに重なり合っている状態をも
含む概念である。
【0024】続いて、上記グループ同士の接触を判別
し、接し合うグループをさらに大きな一つのグループに
まとめる(大グループ化手段(22)、ステップS2
2)。
【0025】このグループ化は、グループ同士が一つも
接しなくなるまで、つまり接し合うグループがなくなる
まで繰り返す(ステップS23)。
【0026】そして、最終的にまとめられた他のいずれ
のグループとも接しないグループを図表データの候補と
して特定するのである(ステップS24)。
【0027】図3は、この図表データ特定の一例を示し
たものであり、電子ドキュメント(10)中に各種の基
本図形(11a)〜(11e)が含まれており、基本図
形(11a)(11b)(11c)は、互いの矩形領域
(12a)(12b)(12c)が接しているので小グ
ループ(13a)としてまとめられ、基本図形(11
d)(11e)は、互いの矩形領域(12d)(12
e)が接し合っているので小グループ(13b)として
まとめられており、さらに小グループ(13a)(13
b)は互いの矩形領域が接しているので大グループ(1
4)としてまとめられており、この大グループ(14)
が一つの図表データの候補として特定されている。
【0028】<非図表データ削除>以上の処理のみでも
電子ドキュメント中の図表データ特定は実現されるが、
特定されたグループの中には、単なるテキスト、囲み線
や網掛けといった文字飾り、ページ全体を囲む枠線や章
の区切りとしての境界線、といった明らかに図表ではな
いものが含まれている場合もあり得る。
【0029】そこで、特定・抽出精度のさらに一層の向
上という観点から、このような非図表データを含むグル
ープを以下の具体的手法で削除することが好ましい(非
図表データ削除手段(3)、ステップS3)。
【0030】第一には、構成要素データ中に含まれる基
本図形の種類データを用いて、上記特定されたグループ
の中から、テキストデータのみを有するグループを削除
する(第一の非図表データ削除手段(31)、ステップ
S31)。このグループは、単なるテキストとして認識
できるので、削除対象になる。
【0031】第二には、構成要素データ中に含まれる基
本図形の種類データを用いて、上記特定されたグループ
の中から、テキストデータ以外の種類のデータを1つの
み有し、且つそのデータがイメージデータ以外であるグ
ループを削除する(第二の非図表データ削除手段(3
2)、ステップS32)。このグループは、枠線や境界
線などとして認識できるので、削除対象になる。
【0032】以上の非図表データ削除処理によって、図
表データの特定精度のさらなる向上が図られる。なおも
ちろん第一、第二の削除処理は、いずれか一つのみを行
っても、両者を行ってもよい。
【0033】<図表データ抽出>後は、非図表データ削
除処理を経たグループを電子ドキュメントから抽出すれ
ば(図表データ抽出手段(4)、ステップS4)、高精
度な図表データ抽出が実現されることになる。
【0034】以上によれば、電子ドキュメントから図表
データのみを簡単に、且つ的確に特定し、抽出すること
が実現されており、しかもその図表データは、テキスト
データやそれを強調したりするためだけのものが排除さ
れた、図表検索処理により有用なものとなっている。し
たがって、たとえば、抽出された図表データを別にデー
タベース化等しておくことで、その図表データベースに
対して検索処理を実行すれば、所望する図表データを高
速・高精度検索可能になり、また様々な再利用等の手法
によって利用することが可能になる(図表データベース
(5)、図表データ検索手段(6)、図表データ利用手
段(7))。
【0035】もちろん、この出願の発明は以上の実施形
態に限定されるものではなく、細部については様々な態
様が可能である。
【0036】
【発明の効果】以上詳しく説明したとおり、この出願の
発明によって、電子ドキュメントの中から必要とする図
表データのみを簡単に、且つ的確に特定し、抽出するこ
とのできる、全く新しい図表データ特定・抽出プログラ
ム、及び当該特定・抽出プログラムを記録したコンピュ
ータ読み取り可能な記録媒体、並びに図表データ特定・
抽出装置が提供され、膨大な電子文書資源のさらに一層
の有効利用が実現されることとなる。
【0037】またたとえば、これらの図表データ特定・
抽出技術を利用することで、電子ドキュメントから図表
を効率良く検索することのできる図表検索システムの構
築を実現することも可能となる。
【図面の簡単な説明】
【図1】この出願の発明を説明するための機能ブロック
図である。
【図2】この出願の発明を説明するための処理フロー図
である。
【図3】図表データ特定の一例を示した図である。
【符号の説明】
1 構成要素データ抽出手段 2 図表データ特定手段 21 小グループ化手段 22 大グループ化手段 3 非図表データ削除手段 31 第一の非図表データ削除手段 32 第二の非図表データ削除手段 4 図表データ抽出手段 5 図表データベース 6 図表データ検索手段 7 図表データ利用手段 10 電子ドキュメント 11a〜11e 基本図形 12a〜12e 矩形領域 13a,13b 小グループ 14 大グループ

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 電子ドキュメント中の図表データを特定
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、として機能させるため
    の図表データ特定プログラム。
  2. 【請求項2】 電子ドキュメント中の図表データを特定
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する非図表データ削除手
    段、として機能させるための図表データ特定プログラ
    ム。
  3. 【請求項3】 電子ドキュメント中の図表データを特定
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する非図表データ
    削除手段、として機能させるための図表データ特定プロ
    グラム。
  4. 【請求項4】 電子ドキュメント中の図表データを特定
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する第一の非図表データ削
    除手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する第二の非図表
    データ削除手段、として機能させるための図表データ特
    定プログラム。
  5. 【請求項5】 電子ドキュメントから図表データを抽出
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 図表データ特定手段により図表データとして特定された
    グループを電子ドキュメントから抽出する図表データ抽
    出手段、として機能させるための図表データ抽出プログ
    ラム。
  6. 【請求項6】 電子ドキュメントから図表データを抽出
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する非図表データ削除手
    段、および、 非図表データ削除手段によるグループ削除後の残りグル
    ープを電子ドキュメントから抽出する図表データ抽出手
    段、 として機能させるための図表データ抽出プログラム。
  7. 【請求項7】 電子ドキュメントから図表データを抽出
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する非図表データ
    削除手段、および、 非図表データ削除手段によるグループ削除後の残りグル
    ープを電子ドキュメントから抽出する図表データ抽出手
    段、として機能させるための図表データ抽出プログラ
    ム。
  8. 【請求項8】 電子ドキュメントから図表データを抽出
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する第一の非図表データ削
    除手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する第二の非図表
    データ削除手段、および、 第一、第二の非図表データ削除手段によるグループ削除
    後の残りグループを電子ドキュメントから抽出する図表
    データ抽出手段、として機能させるための図表データ抽
    出プログラム。
  9. 【請求項9】 電子ドキュメント中の図表データを特定
    するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、として機能させるため
    の図表データ特定プログラムを記録したコンピュータ読
    み取り可能な記録媒体。
  10. 【請求項10】 電子ドキュメント中の図表データを特
    定するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する非図表データ削除手
    段、として機能させるための図表データ特定プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  11. 【請求項11】 電子ドキュメント中の図表データを特
    定するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する非図表データ
    削除手段、として機能させるための図表データ特定プロ
    グラムを記録したコンピュータ読み取り可能な記録媒
    体。
  12. 【請求項12】 電子ドキュメント中の図表データを特
    定するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する第一の非図表データ削
    除手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する第二の非図表
    データ削除手段、として機能させるための図表データ特
    定プログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  13. 【請求項13】 電子ドキュメントから図表データを抽
    出するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 図表データ特定手段により図表データとして特定された
    グループを電子ドキュメントから抽出する図表データ抽
    出手段、として機能させるための図表データ抽出プログ
    ラムを記録したコンピュータ読み取り可能な記録媒体。
  14. 【請求項14】 電子ドキュメントから図表データを抽
    出するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する非図表データ削除手
    段、および、 非図表データ削除手段によるグループ削除後の残りグル
    ープを電子ドキュメントから抽出する図表データ抽出手
    段、として機能させるための図表データ抽出プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  15. 【請求項15】 電子ドキュメントから図表データを抽
    出するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する非図表データ
    削除手段、および、 非図表データ削除手段によるグループ削除後の残りグル
    ープを電子ドキュメントから抽出する図表データ抽出手
    段、として機能させるための図表データ抽出プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  16. 【請求項16】 電子ドキュメントから図表データを抽
    出するためにコンピュータを、 電子ドキュメントの構成要素データを抽出する構成要素
    データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する第一の非図表データ削
    除手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する第二の非図表
    データ削除手段、および、 第一、第二の非図表データ削除手段によるグループ削除
    後の残りグループを電子ドキュメントから抽出する図表
    データ抽出手段、として機能させるための図表データ抽
    出プログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  17. 【請求項17】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、からなる図表データ特
    定装置。
  18. 【請求項18】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する非図表データ削除手
    段、からなる図表データ特定装置。
  19. 【請求項19】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する非図表データ
    削除手段、からなる図表データ特定装置。
  20. 【請求項20】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する第一の非図表データ削
    除手段、および、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する第二の非図表
    データ削除手段、からなる図表データ特定装置。
  21. 【請求項21】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、および、 図表データ特定手段により図表データとして特定された
    グループを電子ドキュメントから抽出する図表データ抽
    出手段、からなる図表データ抽出装置。
  22. 【請求項22】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する非図表データ削除手
    段、および、 非図表データ削除手段によるグループ削除後の残りグル
    ープを電子ドキュメントから抽出する図表データ抽出手
    段、からなる図表データ抽出装置。
  23. 【請求項23】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する非図表データ
    削除手段、および、 非図表データ削除手段によるグループ削除後の残りグル
    ープを電子ドキュメントから抽出する図表データ抽出手
    段、からなる図表データ抽出装置。
  24. 【請求項24】 電子ドキュメントの構成要素データを
    抽出する構成要素データ抽出手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形矩形領域データを用いて、基本図形矩形領域が接す
    る場合にそれらを一つのグループにまとめ、当該グルー
    プ同士が接する場合にそれらをさらに大きな一つのグル
    ープにまとめ、当該グループ同士が一つも接しなくなる
    までグループ化を繰り返し、最後にまとめられた他のい
    ずれのグループとも接しないグループを図表データとし
    て特定する図表データ特定手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タのみ有するグループを削除する第一の非図表データ削
    除手段、 構成要素データ抽出手段による構成要素データ中の基本
    図形種類データを用いて、図表データ特定手段により図
    表データとして特定されたグループから、テキストデー
    タ以外の種類のデータを1つのみ有し、且つそれがイメ
    ージデータ以外であるグループを削除する第二の非図表
    データ削除手段、および、 第一、第二の非図表データ削除手段によるグループ削除
    後の残りグループを電子ドキュメントから抽出する図表
    データ抽出手段、からなる図表データ抽出装置。
JP2002149768A 2002-05-23 2002-05-23 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置 Pending JP2003346146A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002149768A JP2003346146A (ja) 2002-05-23 2002-05-23 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002149768A JP2003346146A (ja) 2002-05-23 2002-05-23 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置

Publications (1)

Publication Number Publication Date
JP2003346146A true JP2003346146A (ja) 2003-12-05

Family

ID=29767830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002149768A Pending JP2003346146A (ja) 2002-05-23 2002-05-23 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置

Country Status (1)

Country Link
JP (1) JP2003346146A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100433003C (zh) * 2004-12-03 2008-11-12 株式会社东芝 电子文档管理装置和电子文档管理方法
JP2010272117A (ja) * 2009-05-25 2010-12-02 Ricoh Co Ltd 移植可能な電子文書からラスタ画像を抽出する方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100433003C (zh) * 2004-12-03 2008-11-12 株式会社东芝 电子文档管理装置和电子文档管理方法
JP2010272117A (ja) * 2009-05-25 2010-12-02 Ricoh Co Ltd 移植可能な電子文書からラスタ画像を抽出する方法及び装置

Similar Documents

Publication Publication Date Title
CN108614898B (zh) 文档解析方法与装置
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
JPH08241332A (ja) 全文登録語検索装置および方法
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
CN110705223A (zh) 一种多页面版式文档的脚注识别和提取方法
WO2021134524A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN109271598B (zh) 一种抽取新闻网页内容的方法、装置及存储介质
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN106326236A (zh) 一种网页内容识别方法和系统
CN112418199B (zh) 多模态信息提取方法、装置、电子设备及存储介质
JP2006260570A (ja) 画像形成装置
JPH08147311A (ja) 構造化文書検索方法及び装置
CN102346771B (zh) 信息展现方法及装置
JP2005107931A (ja) 画像検索装置
JP2003346146A (ja) 図表データ特定・抽出プログラム、及び当該特定・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表データ特定・抽出装置
CN107169065B (zh) 一种特定内容的去除方法和装置
JP2009134378A (ja) 文書群提示装置および文書群提示プログラム
CN113343140B (zh) 一种基于neo4j图形数据库自动提取网页正文内容的方法
JP2000137728A (ja) 文書解析装置及びプログラム記録媒体
JP4480109B2 (ja) 画像管理装置および画像管理方法
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JP2003346161A (ja) 図表内テキスト・図表キャプション・図表説明文・図表種類抽出プログラム、及び当該抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表内テキスト・図表キャプション・図表説明文・図表種類抽出装置
CN110717091B (zh) 基于人脸识别的词条数据扩充方法及装置