JP2000339301A - 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体 - Google Patents

文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体

Info

Publication number
JP2000339301A
JP2000339301A JP2000081870A JP2000081870A JP2000339301A JP 2000339301 A JP2000339301 A JP 2000339301A JP 2000081870 A JP2000081870 A JP 2000081870A JP 2000081870 A JP2000081870 A JP 2000081870A JP 2000339301 A JP2000339301 A JP 2000339301A
Authority
JP
Japan
Prior art keywords
cell
data
segment
analyzing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000081870A
Other languages
English (en)
Inventor
Noriko Otani
紀子 大谷
Toshiaki Eguri
俊明 殖栗
Kenichi Fujii
憲一 藤井
Shiro Ito
史朗 伊藤
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000081870A priority Critical patent/JP2000339301A/ja
Priority to US09/533,255 priority patent/US6865720B1/en
Publication of JP2000339301A publication Critical patent/JP2000339301A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 HTML文書中のテーブルを内容ごとに分割す
る。 【解決手段】 HTML文書中のテーブルを解析して、各セ
ルの位置関係を示すセル位置データと各セルの特徴を表
現したセルベクトルとを生成し(S301)、このセル位置デ
ータおよびセルベクトルを参照してテーブルタイプを判
定し(S302)、表を記述したテーブルの場合は、セル位置
データおよびセルベクトルを参照して、各データは行ま
たは列のどちらで表現されているかを判別し、テーブル
の分割方向を決め(S304)、テーブルタイプおよび分割方
向を参照してセグメントを生成し(S305)、表を記述した
テーブルでないレイアウト目的のテーブルの場合は、セ
ルベクトルを参照して各セルをクラスタリングし(S30
6)、セル位置データおよびセルクラスタ情報を参照して
セグメントを生成する(S307)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を内容ごとに
分割する文書分割装置とその方法、特に、テーブルを含
む文書を分割する文書分割装置とその方法に関するもの
である。
【0002】
【従来の技術】従来、Web上の情報は「ページ」という
単位で提供されており、ページの構成や大きさは情報提
供者が自由に設定できる。もちろん、情報提供者は各自
の情報伝達意図に基づいてページを作成しているのだ
が、それが必ずしも閲覧者の要求と一致しているとは限
らない。
【0003】従って、情報提供者によって関連性が高い
と判断された一連の話題が1ページにまとめられていて
も、閲覧者にとってはそれらの関連性が不要である可能
性もあり、複数の話題のうちの1つだけが有用である場
合には、他の話題の情報は必要な情報を探索する際の妨
げにすらなる。特に、情報提示スペースの小さいモバイ
ル機器では、必要な情報だけを表示するということが重
要な機能となる。
【0004】そこで、表示対象である文書をあらかじめ
内容ごとに分割しておき、閲覧者が必要としている部分
だけを提示することが重要となる。Webページの大半
は、Webページ記述言語であるHTML (Hyper Text Markup
Language)を用いて書かれている。HTMLは文書構造を記
述する言語であるが、論理構造の詳細を記述することは
難しく、ブラウザにおけるレイアウトの指定が主な役割
となっている。
【0005】しかし、ページのレイアウトには、情報提
供者の情報に対する視点が反映されていると考えられ
る。そこで、情報提供者の意図を反映したセグメントを
生成するために、HTMLのタグから読み取ったレイアウト
に基づいてページを分割する手法が提案されている。
【0006】
【発明が解決しようとする課題】上記提案の手法では、
<TABLE>タグと</TABLE>タグで囲まれたテーブルは、意
味的なまとまりであると判断されて、1つのセグメント
として形成されている。しかしながら、テーブルは、比
較的大きな領域を占めて複数の情報を含んでいる場合が
多いため、さらに細かいセグメントに分割することが望
ましい。
【0007】その際、テーブルは、単純な表を記述して
いる場合と、テキストやイメージのレイアウトを指定し
ている場合とがあるが、両者においてタグに含まれた意
図はまったく異なるので、それぞれ違うアプローチでセ
グメントを生成すべきである。
【0008】単純な表を記述している場合は、含まれて
いるデータごとにセグメントを生成することで、ユーザ
のより細かい要求に備えることができると考えられる。
ところが、一口に表を記述していると言っても、1組の
データが行で表現されていたり列で表現されていたり、
項目名を記述した行(または列)があったりなかったり
と、様々な表の形式が存在する。従って、表をデータご
とのセグメントに分割するためには、表の形式を判断す
る必要がある。
【0009】一方、テキストやイメージをレイアウトす
るためにテーブルタグを使っている場合は、各セルに記
述された内容とセル同士の位置関係からセル間の関係を
推定し、内容のまとまりを判断してセグメントを生成す
ることが望まれる。
【0010】本発明は、上記の課題に鑑みてなされたも
のであり、処理対象となっているテーブルを解析して、
表を記述したテーブルであるか、レイアウト目的のテー
ブルであるかを判別し、それぞれに応じた処理によって
セグメントを生成することで、文書中のテーブルを内容
ごとに分割する文書分割装置を提供することを目的とす
る。
【0011】
【課題を解決するための手段】上述した目的を達成する
ために、本発明によれば、文書分割装置に、処理対象で
ある文書中のテーブルを解析して、各セルの位置関係を
示すセル位置データと、各セルの特徴を表現したセルベ
クトルとを生成するテーブル解析手段と、該テーブル解
析手段により生成されたセル位置データおよびセルベク
トルを参照してテーブルタイプを判定するテーブルタイ
プ判定手段と、前記テーブルタイプが表を記述したテー
ブルである場合に、前記テーブルからセグメントを生成
する第1のセグメント生成手段と、前記テーブルタイプ
がレイアウトのためのテーブルである場合に、前記テー
ブルからセグメントを生成する第2のセグメント生成手
段とを備える。
【0012】また、本発明の他の態様によれば、文書分
割方法に、処理対象である文書中のテーブルを解析し
て、各セルの位置関係を示すセル位置データと、各セル
の特徴を表現したセルベクトルとを生成するテーブル解
析工程と、該テーブル解析工程により生成されたセル位
置データおよびセルベクトルを参照してテーブルタイプ
を判定するテーブルタイプ判定工程と、前記テーブルタ
イプが表を記述したテーブルである場合に、前記テーブ
ルからセグメントを生成する第1のセグメント生成工程
と、前記テーブルタイプがレイアウトのためのテーブル
である場合に、前記テーブルからセグメントを生成する
第2のセグメント生成工程とを備える。
【0013】更に、本発明の他の態様によれば、記憶媒
体に、処理対象である文書中のテーブルを解析して、各
セルの位置関係を示すセル位置データと、各セルの特徴
を表現したセルベクトルとを生成するテーブル解析工程
と、該テーブル解析工程により生成されたセル位置デー
タおよびセルベクトルを参照してテーブルタイプを判定
するテーブルタイプ判定工程と、前記テーブルタイプが
表を記述したテーブルである場合に、前記テーブルから
セグメントを生成する第1のセグメント生成工程と、前
記テーブルタイプがレイアウトのためのテーブルである
場合に、前記テーブルからセグメントを生成する第2の
セグメント生成工程とをコンピュータに実行させるため
の文書分割プログラムを記憶する。
【0014】
【発明の実施の形態】〔実施形態1〕以下、図面を用い
て本発明の1実施形態を詳細に説明する。
【0015】図1は、本実施形態の文書分割装置の機能
構成を示すブロック図である。同図において、101は、
処理対象であるHTML文書中のテーブル(<table>と</tabl
e>で囲まれた部分)を保持するHTMLテーブル保持部であ
る。
【0016】102は、HTMLテーブル保持部101に保持され
ているテーブルを解析して、各セルの位置関係を示すセ
ル位置データと、各セルの特徴を表現したセルベクトル
とを生成するテーブル解析部である。
【0017】セルベクトルは、セルの高さや幅、内容の
表示位置、背景色、セル内のテキストの長さや文字種、
セル内のイメージの大きさや形などから決定する。セル
ベクトルの次元は(セル内のイメージの個数×4+17)次
元であり、各成分は0以上1以下の実数である。
【0018】セル内でi番目に出現するイメージをimage
iとするとき、セルベクトルvの第k成分v(k)は次のよう
に定義される。 v(0): タグの種類が<TH>(項目名を表現するセル)のと
き1.0、<TD>(データを表現するセル)のとき0.0。 v(1): rowspan(行幅)が4未満のときrowspan×0.25、
4以上のとき1.0。 v(2): colspan(列幅)が4未満のときcolspan×0.25、
4以上のとき1.0。 v(3): nowrap(改行なし)が指定されているとき1.0、
指定されていないとき0.0。 v(4): align(横位置)の指定がないとき0.0、left
(左詰め)のとき0.2、center(中央)のとき0.4、righ
t(右詰め)のとき0.6、justify(均等)のとき0.8、そ
れ以外のとき1.0。 v(5): valign(縦位置)の指定がないとき0.0、top
(上詰め)のとき0.2、middle(中央)のとき0.4、bott
om(下詰め)のとき0.6、baseline(ベースライン)の
とき0.8、それ以外のとき1.0。 v(6): bgcolor(背景色)の指定がないとき0.0、16進
コードで指定されていないとき0.0、16進コードで指定
されているときbgcolor/0xFFFFFF。 v(7): 9列目以前のとき(列番号)×0.1、10列目以降の
とき1.0。 v(8): 99行目以前のとき(行番号)×0.01、100行目以降
のとき1.0。 v(9): 改行(<BR>)数が5つ未満のとき(改行数)×0.2、5
つ以上のとき1.0。 v(10): テキストの文字数が100文字未満のとき(文字
数)×0.01、100文字以上のとき1.0。 v(11): (テキスト中の数字の数)/(テキストの全文字
数)。 v(12): (テキスト中のアルファベットの数)/(テキスト
の全文字数)。 v(13): (テキスト中の漢字の数)/(テキストの全文字
数)。 v(14): (テキスト中のカタカナの数)/(テキストの全文
字数)。 v(15): (テキスト中のひらがなの数)/(テキストの全文
字数)。 v(16): 句点(“。”または“.”)があるとき1.0、な
いとき0.0。 v(13+i×4): imageiの面積が150000未満のとき(面積)
/150000、150000以上のとき1.0。 v(14+i×4): imageiの高さが300未満のとき(高さ)/30
0、300以上のとき1.0。 v(15+i×4): imageiの幅が500未満のとき(幅)/500、5
00以上のとき1.0。 v(16+i×4): このテーブルを含んでいるページのURL
を示す文字列のうち、imageiのURLと共通の部分文字列
の割合。例えば、 http://hogehoge.aaa.bbbbb.co.jp:8080/hoge1/hoge2/h
oge.html のページ(URLの長さは58)に“../image/hoge.gif”とい
うイメージがあった場合、イメージをフルパスのURLに
書き換えると、 http://hogehoge.aaa.bbbbb.co.jp:8080/hoge1/image/h
oge.gif となるので、共通の部分文字列は http://hogehoge.aaa.bbbbb.co.jp:8080/hoge1/ となる。この長さは43なので、この成分の値は43÷58=
0.741となる。
【0019】103は、テーブル解析部102により生成され
たセル位置データを保持するセル位置データ保持部であ
る。104は、テーブル解析部102により生成されたセルベ
クトルを保持するセルベクトル保持部である。
【0020】105は、セル位置データ保持部103に保持さ
れたセル位置データ、およびセルベクトル保持部104に
保持されたセルベクトルを参照してテーブルタイプを判
定し、テーブルタイプによってカット方向決定部107、
またはセルクラスタ作成部111に処理開始を指示するテ
ーブルタイプ判定部である。テーブルタイプには、以下
のtable I〜table VIIの7種類がある。 table I: すべてのセルの高さと幅が1であり、1行n列
目及びn行1列目のセルがすべて<TH>または同じ背景色。 table II: すべてのセルの高さと幅が1であり、1行n列
目及びn行1列目(1行1列目を除く)のセルがすべて<TH>ま
たは同じ背景色。 table III: すべてのセルの高さと幅が1であり、1行n
列目のセルがすべて<TH>または同じ背景色。 table IV: すべてのセルの高さと幅が1であり、1行n列
目(1行1列目を除く)のセルがすべて<TH>または同じ背景
色。 table V: すべてのセルの高さと幅が1であり、n行1列
目のセルがすべて<TH>または同じ背景色。 table VI: すべてのセルの高さと幅が1であり、n行1列
目(1行1列目を除く)のセルがすべて<TH>または同じ背景
色。 table VII: table I〜table VI以外のテーブル。
【0021】以上において、table I〜table VIが表を
記述するためのテーブルであり、table VIIがレイアウ
ト目的のテーブルである。テーブルタイプがtable I〜t
able VIの場合にはカット方向決定部107に処理開始を指
示し、テーブルタイプがtableVIIの場合にはセルクラス
タ作成部111に処理開始を指示する。
【0022】106は、テーブルタイプ判定部105により決
定されたテーブルタイプを保持するテーブルタイプ保持
部である。
【0023】107は、テーブルタイプ判定部105により処
理開始を指示された場合に、セル位置データ保持部103
に保持されたセル位置データ、およびセルベクトル保持
部104に保持されたセルベクトルを参照して、表を記述
したテーブルにおいて各データは行または列のどちらで
表現されているかを判別し、テーブルの分割方向を決め
るカット方向決定部である。
【0024】N行M列のテーブルTを行で分割したときの
スコアSh(T)と列で分割したときのスコアSv(T)を以下の
ように定義する。以下で、cos(vi,j,vk,l)はi行j列目
のセルのテーブルセルベクトルvi,jとk行l列目のセル
のテーブルセルベクトルvk,lとの余弦値を表す。
【0025】ただし、これはi行j列目のセルとk行l列目
のセルのデータとが共に存在するときにのみ算出される
値で、両方もしくはどちらか一方のセルのデータが存在
しない場合には、値は0となる。
【0026】
【外1】
【0027】テーブルセルベクトルの次元は、i行j列目
のセルとk行l列目のセルに含まれるイメージの数により
決定されるので、両ベクトルの次元が同じになるよう
に、低次元のテーブルセルベクトルに値0の成分を追加
して余弦値を計算する。
【0028】Sh(T)は同じ行にある2つのセルのテーブ
ルセルベクトルの平均余弦値であり、Sv(T)は同じ列に
ある2つのセルのテーブルセルベクトルの平均余弦値で
ある。2つのテーブルセルベクトルの余弦値はセルの類
似度と見なせるので、Sh(T)はテーブルを行ごとに分割
した時の同セグメント内におけるセル間の平均類似度、
Sv(T)はテーブルを列ごとに分割した時の同セグメント
内におけるセル間の平均類似度といえる。
【0029】各セグメントに各種のデータを盛り込むに
は、同セグメント内セル間類似度が低い方が良いので、
Sh(T)≦Sv(T)のときはテーブルTを行ごとに分割し、S
h(T)>Sv(T)のときテーブルTを列ごとに分割するべきだ
と判断する。
【0030】108は、カット方向決定部107により決定さ
れたカット方向を保持するカット方向保持部である。
【0031】109は、テーブルタイプ保持部106に保持さ
れたテーブルタイプ、およびカット方向保持部108に保
持されたカット方向を参照して、表を記述したテーブル
からセグメントを生成する表セグメント生成部である。
カット方向が行方向の場合、table Vのテーブルはその
まま行をセグメントとし、table V以外のテーブルは1行
目を組み合わせてセグメントを作る。カット方向が列方
向の場合、table IIIのテーブルはそのまま列をセグメ
ントとし、table III以外のテーブルは1列目を組み合わ
せてセグメントを作る。
【0032】110は、表セグメント生成部109により生成
された表セグメントを保持する表セグメント保持部であ
る。
【0033】111は、テーブルタイプ判定部105により処
理開始を指示された場合に、セルベクトル保持部104に
保持されたセルベクトルを参照して、レイアウト目的の
テーブルにおいて各セルをクラスタリングするセルクラ
スタ作成部である。ここでは最大距離アルゴリズムを用
いてセルの分類を決定する。最大距離アルゴリズムのク
ラスタリング手順を以下に示す。
【0034】Step.1: N個のサンプルパターン集合X =
{x1,x2,…,xN}から、任意にひとつ(ここではx1として
説明する)を選び、クラスタ中心z1∈Zとする。 Step.2: Zに含まれないすべてのxi∈Xについて、すで
に選ばれたクラスタ中心z j∈Zのうち、一番近いものま
での距離dxiを計算する。Max{dxi}を与えるxiをxCとす
る。 Step.3: すべてのzk∈Zについて、zk以外のクラスタ中
心のうち、一番遠いものまでの距離dzkを計算する。 Step.4: dxC≧max{dzk}×t(t=0.5〜1)が成立すると
き、xCを新たなクラスタ中心とし、Step.2に戻って次の
クラスタ中心を選ぶ。dxC<max{dzk}×t(t=0.5〜1)なら
ばStep.5へ。 Step.5: すべてのxi∈Xを、最も近いzj∈Zのクラスタ
に分類する。
【0035】最大距離アルゴリズムによるクラスタリン
グ結果の例を図4に示す。
【0036】112は、セルクラスタ作成部111により作成
されたセルのクラスタ情報を保持するセルクラスタ情報
保持部である。
【0037】113は、セル位置データ保持部103に保持さ
れたセル位置データ、およびセルクラスタ情報保持部11
2に保持されたセルクラスタ情報を参照して、レイアウ
ト目的のテーブルからセグメントを生成するレイアウト
セグメント生成部である。
【0038】テーブルの形式を利用して情報を配置する
メリットとしては、ある配置パターンの縦横方向の繰り
返しが容易に表現できる点が挙げられる。そこで、セル
クラスタ情報をもとに配置パターンを推定して、パター
ンに適合するセルを合わせてセグメントとする。ある配
置パターンが繰り返し現れるときには、そのパターンに
適合するセル同士が意味的にまとまっていると判断でき
るからである。処理の詳細を以下に示す。
【0039】まず、基本セル種を決定し、基本セル種に
属するセルを基本セルとする。基本セル種は、同種のセ
ルが複数あるセルの種類のうち、最もセル数の少ないセ
ル種とする。該当するセル種が複数ある場合には、より
左、上にあるセルの種類を選ぶ。
【0040】次に、ある基本セルに隣接するセルと分類
が同じセルが他の基本セルにも同じように隣接するかを
確認する。隣接していれば、それぞれを結合し、新たな
基本セルとする。これを結合できなくなるまで繰り返
す。
【0041】以上の処理を終えると、基本セルおよび残
りのセルをそれぞれセグメントとする。
【0042】114は、レイアウトセグメント生成部113に
より生成されたレイアウトセグメントを保持するレイア
ウトセグメント保持部である。表セグメント保持部110
に保持された表セグメント、およびレイアウトセグメン
ト保持部114に保持されたレイアウトセグメントが結果
として得られるセグメントである。
【0043】図2は、本発明の実施形態に係る文書分割
装置のハードウェア構成を示す図である。
【0044】同図において、CPU201は、ROM202に保持さ
れているプログラムに従って処理を行なう。ROM202は、
後述する制御手順を実現するプログラムを保持する。RA
M 203は、セル位置データ保持部103、セルベクトル保持
部104、テーブルタイプ保持部106、カット方向保持部10
8、セルクラスタ情報保持部112と上記プログラムの動作
に必要な記憶領域とを提供する。
【0045】ディスク装置204は、HTMLテーブル保持部1
01、表セグメント保持部110、レイアウトセグメント保
持部114を実現する。バス205は、上記の各構成を接続
し、各構成間におけるデータの授受を可能とする。
【0046】次に、本実施形態の処理動作を説明する。
図3は本実施形態の文書分割装置の動作手順を示すフロ
ーチャートである。
【0047】ステップS301では、HTMLテーブル保持部10
1に保持されているテーブルを解析して、各セルの位置
関係を示すセル位置データと、各セルの特徴を表現した
セルベクトルを生成する。そしてステップS302に移る。
【0048】ステップS302では、セル位置データ保持部
103に保持されたセル位置データ、およびセルベクトル
保持部104に保持されたセルベクトルを参照して、テー
ブルタイプを決定する。そしてステップS303に移る。
【0049】ステップS303では、テーブルタイプ保持部
106に保持されたテーブルタイプを参照して、処理対象
のテーブルが表を記述したテーブルか否かを判定して、
表を記述したテーブルの場合はステップS304に移る。表
を記述したテーブルでない場合はステップS306に移る。
【0050】ステップS304では、セル位置データ保持部
103に保持されたセル位置データ、およびセルベクトル
保持部104に保持されたセルベクトルを参照して、表を
記述したテーブルにおいて各データは行または列のどち
らで表現されているかを判別し、テーブルの分割方向を
決める。そしてステップS305に移る。
【0051】ステップS305では、テーブルタイプ保持部
106に保持されたテーブルタイプ、およびカット方向保
持部108に保持されたカット方向を参照して、表を記述
したテーブルからセグメントを生成する。そして動作を
終了する。
【0052】ステップS306では、セルベクトル保持部10
4に保持されたセルベクトルを参照して、レイアウト目
的のテーブルにおいて各セルをクラスタリングする。そ
してステップS307に移る。
【0053】ステップS307では、セル位置データ保持部
103に保持されたセル位置データ、およびセルクラスタ
情報保持部112に保持されたセルクラスタ情報を参照し
て、レイアウト目的のテーブルからセグメントを生成す
る。そして動作を終了する。
【0054】以上に述べたように、処理対象となってい
るテーブルを解析して、表を記述したテーブルである
か、レイアウト目的のテーブルであるかを判別し、それ
ぞれに応じた処理によってセグメントを生成すること
で、HTML文書中のテーブルを内容ごとに分割する文書分
割装置を実現することができる。
【0055】〔変形例〕上記実施形態では、セルのクラ
スタリングに最大距離アルゴリズムを利用するように説
明しているが、これに限定されるものではなく、他のア
ルゴリズムを用いてクラスタリングを行なってもよい。
【0056】上記実施形態で示したセルベクトルの各成
分の定義は一例であり、他の定義によってセルの特徴を
ベクトル表現してもよい。
【0057】上記実施形態で示したカット方向を決定す
るスコアの定義は一例であり、他の定義によってカット
方向を決定してもよい。
【0058】上記実施形態では、テーブルタイプを決定
するための項目名の行(または列)の判定に、セルの高さ
と幅、タグの種類(TH or TD)、背景色を用いているが、
これに限定されるものではなく、他の属性を用いて判定
してもよい。
【0059】上記実施形態においては、セル位置データ
保持部103、セルベクトル保持部104、テーブルタイプ保
持部106、カット方向保持部108、セルクラスタ情報保持
部112をRAMで、HTMLテーブル保持部101、表セグメント
保持部110、レイアウトセグメント保持部114をディスク
装置で実現する場合について説明したが、これに限定さ
れるものではなく、任意の記憶媒体を用いて実現しても
よい。
【0060】上記実施形態では、HTMLのテーブルを分割
する場合について説明したが、テーブルの内容が区別で
きれば、他の形式であってもよい。
【0061】上記実施形態においては、各部を同一の計
算機上で構成する場合について説明したが、これに限定
されるものではなく、ネットワーク上に分散した計算機
や処理装置などに分かれて各部を構成してもよい。
【0062】上記実施形態においては、プログラムをRO
Mに保持する場合について説明したが、これに限定され
るものではなく、任意の記憶媒体を用いて実現してもよ
い。また、同様の動作をする回路で実現してもよい。
【0063】〔実施形態2〕上記実施形態では、HTMLの
テーブルを分割するだけの装置として説明しているが、
これに限定されるものではない。例えば、HTML文書全体
を分割する装置であってもよい。図5は、この場合の基
本的な機能構成を示すブロック図である。
【0064】図5において、501は、処理対象であるHTM
L文書を保持するHTML文書保持部である。502は、HTML文
書保持部501に保持されているHTML文書をセグメントに
分割する一般セグメント生成部である。503は、一般セ
グメント生成部502により生成されたテーブル以外のセ
グメントを保持する一般セグメント保持部である。HTML
テーブル保持部504は、一般セグメント生成部502により
生成されたテーブルのセグメントを保持する。以下は、
図1と同様である。
【0065】図5では、一般セグメント保持部503に保持
された一般セグメント、表セグメント保持部513に保持
された表セグメント、およびレイアウトセグメント保持
部517に保持されたレイアウトセグメントが結果として
得られるセグメントである。
【0066】〔実施形態3〕上記実施形態では、表を記
述しているテーブルとレイアウト目的のテーブルの両方
をセグメントに分割しているが、これに限定されるもの
ではない。例えば、表を記述しているテーブルのみを分
割してもよい。図6はこの場合の基本的な機能構成を示
すブロック図である。
【0067】図6において、テーブルセグメント生成部
601は、テーブルタイプ判定部105により処理開始を指示
された場合に、HTMLテーブル保持部101に保持されたHTM
Lテーブルをテーブルセグメントとして生成する。
【0068】テーブルセグメント保持部602は、テーブ
ルセグメント生成部611により生成されたテーブルセグ
メントを保持する。他の構成は、図1と同様である。
【0069】図6では、表セグメント保持部110に保持さ
れた表セグメント、およびテーブルセグメント保持部60
2に保持されたテーブルセグメントが結果として得られ
るセグメントである。
【0070】〔実施形態4〕また、上記実施形態では、
表を記述しているテーブルとレイアウト目的のテーブル
の両方をセグメントに分割しているが、レイアウト目的
のテーブルのみを分割してもよい。図7はこの場合の基
本的な機能構成を示すブロック図である。
【0071】図7において、テーブルセグメント生成部
701は、テーブルタイプ判定部705により処理開始を指示
された場合に、HTMLテーブル保持部701に保持されたHTM
Lテーブルをテーブルセグメントとして生成する。テー
ブルセグメント保持部702は、テーブルセグメント生成
部706により生成されたテーブルセグメントを保持す
る。他の構成は、図1と同様である。
【0072】図7では、テーブルセグメント保持部702に
保持されたテーブルセグメント、およびレイアウトセグ
メント保持部114に保持されたレイアウトセグメント
が、結果として得られるセグメントである。
【0073】なお、上記実施形態では、HTML文書を分割
する装置として説明しているが、これに限定されるもの
ではなく、検索装置と組み合わせて、生成されたセグメ
ント単位で検索を行なうことができるセグメント検索装
置として実現してもよい。
【0074】〔実施形態5〕これまでの実施形態では、
表を記述したテーブルであるかどうかを判定するのに、
テーブルのシンタックスのみから判定を行っている。
【0075】ところが、HTML文書のテーブルには、テー
ブルの項目をTHタグや項目名として識別可能な強調文字
などで記述していないものもあるため、表を記述したテ
ーブルであるにもかかわらず、レイアウトとして判定さ
れてしまうことがある。そのような場合には、表を記述
したテーブルであるかどうかを判定するのに、シンタッ
クスからのアプローチだけでは限界がある。
【0076】ここで、図8を例にとると、セル間の意味
が類似しているため、各セルは1つの項目に対する要素
を構成していることが分かる。このようにHTML文書のテ
ーブルには、表を記述したテーブルであるとセマンティ
ックスにより判定可能なものもある。
【0077】そこで、本実施形態では、表を記述したテ
ーブルであるかどうかを判別するのに、セマンティック
スによるアプローチで表を記述したテーブルであるかど
うかを判定する。
【0078】図9は、本実施形態に係る装置の構成を示
すブロック図である。
【0079】テーブル解析部102では、HTMLテーブル保
持部101に保持されているテーブルを解析して、各セル
の位置関係を示すセル位置データと、各セルの特徴を表
現したセルベクトルと、各セルのデータを生成する。セ
ルデータ保持部901では、テーブル解析部102により生成
されたセルデータを保持する。他の構成は、図1と同様
である。
【0080】本実施形態の処理手順は、実施形態1と同
様に、図3に示すフローチャートに従う。但し、詳細に
おいて実施形態1と異なるので、その点について説明す
る。
【0081】ステップS301では、HTMLテーブル保持部10
1に保持されているテーブルを解析して、各セルの位置
関係を示すセル位置データと、各セルの特徴を表現した
セルベクトルと、各セルのデータとを生成する。そして
ステップS302に移る。
【0082】ステップS302では、セル位置データ保持部
103に保持されたセル位置データ、セルベクトル保持部1
04に保持されたセルベクトル、およびセルデータ保持部
901に保持されたセルデータのいずれかを参照してテー
ブルタイプを決定する。そしてステップS303に移る。
【0083】ここで、テーブルタイプの決定には、シソ
ーラスに基づくテーブルタイプ決定、文字の類似度に基
づくテーブルタイプ決定、シンタックスに基づくテーブ
ルタイプ決定、文字の一致度に基づくテーブルタイプ決
定がある。テーブルタイプ決定の動作については、後述
する各実施形態の中で説明する。ステップS303以下は実
施形態1と同様である。
【0084】本実施形態は、テーブル判定部105にシソ
ーラス・類似度判定部1001、シソーラス辞書1002を含ん
でいる。図10を用いて動作の説明を行う。
【0085】ここでシソーラスとは、語彙の上下関係を
意味する単語である。単語にはより抽象的な単語である
上位語、言い換えても意味の変わらない単語である同義
語、意味的に近い単語である類義語、より具体的な単語
である下位語などがある。たとえば、アサガオという単
語には、上位語として花、類義語としてスミレやヒルガ
オやホウセンカなどの単語が存在する。花という単語に
は、下位語としてスミレやヒルガオやホウセンカなどの
単語が存在することになる。
【0086】シソーラス・類似度判定部1001は、セル位
置データ保持部103に保持されたセル位置データ、およ
びセルデータ保持部115に保持されたセルデータを参照
して、シソーラス辞書1002に記述されたシソーラス・類
似度に基づいてテーブルタイプを判定し、そのテーブル
タイプをテーブルタイプ106に保持する。
【0087】ここでシソーラス・類似度に基づくテーブ
ルタイプ判定の説明をM行N列のテーブルを想定して行
う。
【0088】文字列s1とs2の2つの文字列に対してシソ
ーラスに基づいてスコアをはかる関数を、f(s1,s2)と表
記することにする。ここで、文字列s1に対して文字列s2
が同義語あるいは類義語であるときにf(s1,s2)の値が最
も高くなる。文字列s1に対して文字列s2が上位語あるい
は下位語方向に階層が深くなるにしたがってf(s1,s2)の
値は低くなるものとする。
【0089】m行n列のセルの文字列をSm,nとすると、1
列目の各セルに対するシソーラスの平均スコアは、
【0090】
【外2】 と表せる。同様にして1行目の各セルに対するシソーラ
スの平均スコアは、
【0091】
【外3】 と表せる。1行目、もしくは1列目の各セルに対するシソ
ーラスの平均スコアが閾値を超えたとき表を記述したテ
ーブルと判定し、閾値を超えなかったときレイアウトを
記述したテーブルと判定することで処理対象のテーブル
のテーブルタイプを判定することが出来る。
【0092】文字列s1とs2の2つの文字列に対して文字
の類似度に基づいてスコアをはかる手法には、あいまい
検索と呼ばれる手法などがある。
【0093】文字列s1とs2の2つの文字列に対して文字
の類似度に基づいてスコアをはかる関数を、g(s1,s2)と
表記することにする。文字の類似度が高い場合にg(s1,s
2)の値が高く、類似度が低い場合にg(s1,s2)の値が低く
なるものとすると、あいまい検索を使って、上記のシソ
ーラスに基づいてスコアをはかる方法と同様に、1行
目、もしくは1列目の各セルに対する文字の類似度の平
均スコアが閾値を超えたとき表を記述したテーブルと判
定し、閾値を超えなかったときレイアウトを記述したテ
ーブルと判定することで処理対象のテーブルのテーブル
タイプを判定することが出来る。
【0094】本実施形態では、処理対象のテーブルに対
して、まずシソーラスに基づくテーブル判別を行い、そ
のテーブルが表を記述したテーブルの場合は終了し、表
を記述したテーブルでない場合、処理対象のテーブルに
対して、文字の類似度に基づくテーブル判定をするよう
にする。
【0095】このようにして、処理対象のテーブルをシ
ソーラス・類似度に基づいてテーブルタイプを判定する
ことが出来る。
【0096】ここでステップS302のテーブル判定の詳細
について図11を用いて説明する。
【0097】ステップS1101では、セル位置データ保持
部103のセル位置データ、およびセルデータ保持部901の
セルデータから、シソーラスに基づいて処理対象のテー
ブルのタイプを判定し、そのテーブルが表を記述したテ
ーブルの場合は終了し、表を記述したテーブルでない場
合ステップS1102へ移る。
【0098】ステップS1102では、セル位置データおよ
びセルデータから、処理対象のテーブルのタイプを文字
の類似度に基づいて判定する。そして終了する。
【0099】ここで、図8の花の育て方に関するページ
のテーブルを例に説明する。まず、1行目および1列目の
各セルに対するシソーラスの平均スコアを測定する。す
ると、1列目にはスミレ、アサガオ、ホウセンカの単語
が並んでいる。これらの単語は、花に関する単語を表し
ている。したがって、1列目の各セルに対するシソーラ
スの平均スコアは大きくなり、表を記述したテーブルで
あると判定出来る。
【0100】次に、図12の製品カタログのページに関
するページのテーブルを例に説明する。まず、1行目お
よび1列目の各セルに対する文字の類似度の平均スコア
を測定する。すると、1列目にはAAA0001、AAA0002、AAA
1001の単語が並んでいる。これらの単語は、文字が類似
している。したがって、1列目の各セルに対する文字の
類似度の平均スコアは大きくなり、表を記述したテーブ
ルであると判定出来る。
【0101】以上に述べたように、処理対象となってい
るテーブルをセマンティックスに基づいて解析して、表
を記述したテーブルであるか、レイアウト目的のテーブ
ルであるかを判別し、それぞれに応じた処理によってセ
グメントを生成することで、HTML文書中のテーブルを内
容ごとに分割することが出来る。
【0102】〔実施形態6〕本実施形態では、テーブル
判定部105に部分文字列抽出部1301と文字列比較部1302
を含んでいる。図13を用いて動作の説明を行う。
【0103】部分文字列抽出部1301では、セル位置デー
タ保持部103に保持されたセル位置データ、およびセル
データ保持部901に保持されたセルデータを参照して、
各セルデータの部分文字列を抽出する。ここで、部分文
字列の抽出は、形態素解析などの既存の手法を用いて行
う。
【0104】文字列比較部1302では、部分文字列抽出部
1301で抽出された各セルの部分文字列の比較を行い、多
くのセルで部分文字列が一致するかどうかでテーブルタ
イプを判定し、判定されたテーブルタイプをテーブルタ
イプ保持部106に保持する。
【0105】ここで文字列比較に基づくテーブルタイプ
判定の説明を、M行N列のテーブルを想定して行う。
【0106】文字列s1とs2の2つの文字列に対して文字
列が一致度をはかる関数を、h(s1,s2)と表記することに
する。h(s1,s2)≠0のとき2つの文字列が一致していない
とする。h(s1,s2)=0のとき2つの文字列が一致している
とする。
【0107】m行n列のセルの文字列をSm,nとし、Sm,n
部分文字列に分割したとき先頭からk番目の部分文字列
をSk m,nとすると、1列目の各セルにおける最後の部分文
字列に対する文字列の一致度の平均は、
【0108】
【外4】 と表せる。Sm i,1,Sn j,1はそれぞれの文字列における最
後の部分文字列を表す。同様にして1行目の各セルに対
する文字列の一致度の平均は、
【0109】
【外5】 と表せる。1行目、もしくは1列目の各セルに対する文字
列が一致度の平均が閾値より小さいとき表を記述したテ
ーブルと判定し、閾値より小さくないときレイアウトを
記述したテーブルと判定することで処理対象のテーブル
のテーブルタイプを判定することが出来る。これらの処
理後、判定されたテーブルタイプをテーブルタイプ保持
部106に保持する。このようにして、文字列比較に基づ
いてテーブルタイプを判定することが出来る。
【0110】ここでステップS302のテーブル判定の詳細
について図14を用いて説明する。
【0111】ステップS1401では、セル位置データおよ
びセルベクトルから部分文字列を抽出して、ステップS1
402に移る。
【0112】ステップS1402では、各セルの部分文字列
の比較を行い、多くのセルで部分文字列が一致するかど
うかでテーブルタイプを判定する。そして終了する。
【0113】ここで、図15の病院に関するページのテー
ブルを例に説明する。
【0114】まず、1行目および1列目の各セルを、形態
素解析を使って部分文字列に分割する。1列目の各セル
を部分文字列に分割すると、○○−病院、××−病院、
△△−病院となる。各セルの最後の部分文字列を文字列
比較すると、「病院」が一致するため、1列目の各セル
に対する文字列一致度の平均は小さくなり、表を記述し
たテーブルであると判定出来る。
【0115】以上に述べたように、処理対象となってい
るテーブルをセルの部分文字列の一致度を解析して、表
を記述したテーブルであるか、レイアウト目的のテーブ
ルであるかを判別し、それぞれに応じた処理によってセ
グメントを生成することで、HTML文書中のテーブルを内
容ごとに分割することが出来る。
【0116】〔実施形態7〕本実施形態では、テーブル
判定部105に部分文字列抽出部1601とシソーラス・類似度
判定部1602、シソーラス辞書1603を含んでいる。図16を
用いて動作の説明を行う。
【0117】部分文字列抽出部1601では、セル位置デー
タ保持部103に保持されたセル位置データ、およびセル
データ保持部115に保持されたセルデータを参照して、
部分文字列を抽出する。
【0118】シソーラス・類似度判定部1602では、部分
文字列抽出部1601で抽出された各セルの部分文字列に対
して、シソーラス辞書1603のシソーラス・類似度に基づ
きテーブルのタイプを判定し、判定されたテーブルタイ
プをテーブルタイプ保持部106に保持する。
【0119】ここでステップS302のテーブル判定の詳細
について図17を用いて説明する。
【0120】ステップS1701では、セル位置データおよ
びセルベクトルから部分文字列を抽出して、ステップS5
302に移る。
【0121】ステップS1702では、各セルの部分文字列
に対してシソーラスに基づきテーブル判定する。その結
果、ステップS1703では、表を記述したテーブルであれ
ば終了し、そうでなければステップS1704へ移る。
【0122】ステップS1704では、各セルの部分文字列
に対して文字の類似度に基づきテーブル判定する。そし
て終了する。
【0123】以上述べたように、処理対象となっている
テーブルをセルの部分文字列に対してシソーラス・類似
度に基づきテーブル判定し、表を記述したテーブルであ
るか、レイアウト目的のテーブルであるかを判別し、そ
れぞれに応じた処理によってセグメントを生成すること
で、HTML文書中のテーブルを内容ごとに分割することが
出来る。
【0124】〔実施形態8〕本実施形態では、テーブル
判定部105にシンタックス判定部1801とシソーラス・類似
度判定部1802とシソーラス辞書1803を含んでいる。図18
を用いて動作の説明を行う。
【0125】シンタックス判定部1801は、実施形態1の
テーブルタイプ判定部105と同様の処理を行なう。シン
タックス判定部1801あるいはシソーラス・類似度判定部1
802での処理後、判定されたテーブルタイプをテーブル
タイプ保持部106に保持する。
【0126】ここで、ステップS302のテーブル判定の詳
細について図19を用いて説明する。
【0127】ステップS1901では、セル位置データおよ
びセルベクトルからシンタックスに基づきテーブル判定
する。その結果、ステップS1902では、表を記述したテ
ーブルであれば終了し、そうでなければステップS1903
へ移る。
【0128】ステップS1903では、セル位置データおよ
びセルベクトルからシソーラスに基づきテーブルを判定
する。その結果、ステップS1904では、表を記述したテ
ーブルであれば終了し、そうでなければステップS1905
へ移る。
【0129】ステップS1905では、セル位置データおよ
びセルベクトルから文字の類似度に基づきテーブルを判
定する。そして終了する。
【0130】以上述べたように、処理対象となっている
テーブルをシンタックスおよびセマンティックスに基づ
いて解析して、表を記述したテーブルであるか、レイア
ウト目的のテーブルであるかを判別し、それぞれに応じ
た処理によってセグメントを生成することで、HTML文書
中のテーブルを内容ごとに分割することが出来る。
【0131】〔実施形態9〕本実施形態では、テーブル
判定部105にシンタックス判定部2001と部分文字列抽出
部2002と文字列比較部2003を含んでいる。図20を用いて
動作の説明を行う。
【0132】シンタックス判定部2001は、実施形態1の
テーブルタイプ判定部105と同様の処理を行なう。部分
文字列抽出部2002と文字列比較部2003は、実施形態6の
部分文字列抽出部1301と文字列比較部1302と同様の処理
を行なう。シンタックス判定部2001あるいは文字列比較
部2003での処理後、判定されたテーブルタイプをテーブ
ルタイプ保持部106に保持する。
【0133】ここでステップS302のテーブル判定の詳細
について図21を用いて説明する。
【0134】ステップS2101では、セル位置データおよ
びセルベクトルからシンタックスに基づきテーブル判定
する。その結果、表を記述したテーブルであれば終了
し、そうでなければステップS2102へ移る。
【0135】ステップS2102では、セル位置データおよ
びセルベクトルから部分文字列を抽出し、ステップS210
3では、各セルの部分文字列の比較を行い、多くのセル
で部分文字列が一致するかどうかでテーブルタイプを判
定する。そして終了する。
【0136】以上述べたように、処理対象となっている
テーブルをシンタックスおよびセルの部分文字列に対し
て一致度を解析して、表を記述したテーブルであるか、
レイアウト目的のテーブルであるかを判別し、それぞれ
に応じた処理によってセグメントを生成することで、HT
ML文書中のテーブルを内容ごとに分割することが出来
る。
【0137】〔実施形態10〕本実施形態では、テーブル
判定部105にシンタックス判定部と部分文字列抽出部と
シソーラス・類似度判定部とシソーラス辞書を含んでい
る。図22を用いて動作の説明を行う。
【0138】シンタックス判定部2201は、実施形態1の
テーブルタイプ判定部105と同様の処理を行なう。部分
文字列抽出部2202とシソーラス・類似度判定部2203は、
部分文字列抽出部1601とシソーラス・類似度判定部1602
と同様の処理を行なう。シンタックス判定部あるいはシ
ソーラス・類似度判定部での処理後、判定されたテーブ
ルタイプをテーブルタイプ保持部106に保持する。
【0139】ここでステップS302のテーブル判定の詳細
について図23を用いて説明する。
【0140】ステップS2301では、セル位置データおよ
びセルベクトルからシンタックスに基づきテーブル判定
する。その結果、ステップS2302では、表を記述したテ
ーブルであれば終了し、そうでなければステップS2303
へ移る。
【0141】ステップS2303では、セル位置データおよ
びセルベクトルから部分文字列を抽出し、ステップS230
4で、各セルの部分文字列に対してシソーラスに基づき
テーブル判定する。その結果、ステップS2305では、表
を記述したテーブルであれば終了し、そうでなければス
テップS2306へ移る。ステップS2304では、各セルの部分
文字列に対して文字の類似度に基づきテーブル判定す
る。そして終了する。
【0142】以上に述べたように、処理対象となってい
るテーブルをシンタックスに基づいて解析し、またセル
の部分文字列に対してシソーラス・類似度に基づいて解
析して、表を記述したテーブルであるか、レイアウト目
的のテーブルであるかを判別し、それぞれに応じた処理
によってセグメントを生成することで、HTML文書中のテ
ーブルを内容ごとに分割することが出来る。
【0143】以上説明した実施形態では、表を記述した
テーブルであるかどうかを判別するのに、シンタックス
によるテーブル判別に加え、セマンティックスによるテ
ーブル判別を行なうことで、多くのテーブルに対して表
を記述したテーブルであると判別することが可能にな
る。
【0144】〔実施形態11〕ここで、テーブルに関する
名称について簡単に説明する。
【0145】レコードは、ある一つの実体を表現した情
報であり、同種の実体を表現したレコードを集めた集合
がレコード集合である。当然、レコード集合中の各レコ
ードの形式は同一である。レコードは、実体の各属性を
表現したデータであるフィールドから構成される。例え
ば、図24において、「山田太郎:横浜市:045-000-0000」
は、三つのフィールドから構成されるレコードである。
「山田花子:川崎市:044-111-1111」も、上記レコードと
同じ形式で同様に人物を表現したレコードである。この
二つのレコードから構成される集合は、レコード集合で
ある。
【0146】フィールドを識別するのに、第1フィール
ド、第2フィールドでは、分かりづらいので、名称を付
与することが多い。フィールドに付与された名称をフィ
ールド名と呼ぶ。また、各レコードにおけるフィールド
の値をフィールド値と呼ぶ。例えば、先のレコードで
は、第1フィールドのフィールド名を「名前」、以下、
第2フィールドを「住所」、第3フィールドを「電話」と
する。第1のレコードでは、フィールド名「名前」のフ
ィールド値が「山田太郎」、フィールド名「住所」のフ
ィールド値が「横浜市」となる。
【0147】レコード集合を実際に表現したデータが図
24である。HTML文書の場合、表はテーブルとして具体的
に記述される(テーブルとは、TABLEタグで記述される
データを指す)。図24は、レコード集合をテーブルで記
述した表の例である。
【0148】この例では、テーブルの各行が一つのレコ
ードを記述しているが、列がレコードを記述する場合も
ある。しかし今後の議論においては、行と列を入れ替え
ても、すなわちテーブルの対角線に対して対称変換して
も差し支えない。そこで、以下レコードは行方向で記述
されるとして扱う。列がレコードを表現している場合
は、行と列を読み替えれば同等である。図のテーブルで
は、第1行が各フィールドのフィールド名を記述してい
る。このような行をフィールド名記述行と呼ぶ。第2行
と第3行は、それぞれ一つのレコードを記述している。
このような行をレコード記述行と呼ぶ。
【0149】これまでの実施形態では、表を記述したテ
ーブルであるかどうかを判定するのに、M行N列に漏れが
なく規則正しく記述されたテーブルを前提に判定を行っ
ている。しかしながら、HTML文書のテーブルには、1つ
のテーブル中に複数の表が含まれたり、レコードが複数
の表にまたがるテーブルがある。また、隣り合った情報
が同じである場合には、その情報をまとめて1つの情報
で表記するマルチロー、マルチカラムのテーブルもあ
る。これらのテーブルは単純にテーブル判定を行うこと
ができない。
【0150】このようなテーブルに対しては、テーブル
の構造やテーブルを構成する情報記述の規則性などを解
析することにより、テーブルをM行N列に規則正しく再構
成することで正しくテーブル分割が行えるようになる。
【0151】図25は、本発明の一実施例に係る装置の構
成を示すブロック図である。
【0152】HTMLテーブル再構成部2501は、HTMLテーブ
ル保持部101で保持しているテーブルに対して、テーブ
ルの構造やテーブルを構成する情報記述の規則性などを
解析することで、テーブルをM行N列に漏れがなく規則正
しく再構成する。
【0153】HTMLテーブル再構成データ保持部2502は、
116のHTMLテーブル再構成部で再構成されたHTMLテーブ
ルのデータを保持する。
【0154】テーブル解析部102は、HTMLテーブル再構
成データ保持部2502に保持されているテーブルを解析し
て、各セルの位置関係を示すセル位置データと、各セル
の特徴を表現したセルベクトルと、各セルのデータを生
成する。その他の構成は、図1と同様である。
【0155】次に、図26に示すフローチャートを参照し
て、本実施形態の文書分割装置の動作を説明する。
【0156】ステップS2600では、HTMLテーブル保持部1
01に保持されているテーブルに対して、テーブルの構造
やテーブルを構成する情報記述の規則性などを解析する
ことにより、テーブルをM行N列に漏れがなく規則正しく
再構成する。そしてステップS2601へ移る。
【0157】ここで、テーブル再構成には、付加データ
除去、マルチロー・マルチカラムテーブル処理、複合テ
ーブル処理によるテーブル再構成がある。本実施形態で
は、付加データ除去によりテーブル再構成を行なう。マ
ルチロー・マルチカラムテーブル処理、複合テーブル処
理によるテーブル再構成の動作については他の実施形態
で説明する。ステップS2601―2607は、図3のステップS3
01―307と同様である。
【0158】本実施例では、HTMLテーブル再構成部2501
が付加データ除去を行なう。ここでは、HTMLテーブル保
持部101に保持されたテーブルデータを参照して、テー
ブルの中の表に付加された不要なデータを除去する。
【0159】次にステップS2600のHTMLテーブル再構成
の詳細について図27を用いて説明する。
【0160】ステップS2701では、THタグの記述された
フィールド名記述行の範囲を判定し、ステップS2702で
は、背景色を表記したタグの記述されたフィールド名記
述行の範囲を判定し、ステップS2703では、強調文字の
記述されたフィールド名記述行の範囲を調査し、ステッ
プS2704へ移る。
【0161】ステップS2704では、ステップS2701―2703
で調査したフィールド名記述行の範囲を基にして、フィ
ールド名記述行の各フィールド名とフィールド名記述行
の表記の方向と垂直の方向にあるフィールドとの意味の
類似度の計算を行う。類似度のスコアが高いフィールド
はフィールド名に対する表記であるので、類似度のスコ
アの高い範囲を判定することで表の範囲を判定する。ス
テップS2705では、ステップS2704と同様の手順で文字列
の類似度の計算を行って表の範囲を判定する。
【0162】ステップS2706では、ステップS2704―2705
で調査した表の範囲を基にして、表以外の余分なデータ
を取り除く。
【0163】ここでサンプルを用いて付加データ除去の
動作を説明する。図28は、花の育て方のページであり、
1及び4行目に表以外のデータが付加している。
【0164】まず、ステップS2701― 2703により、フィ
ールド名記述行がある行を特定する。図28では、2行目
に強調文字によってフィールド名記述行があるので、ス
テップS2703の処理によって2行目がフィールド名記述行
であると判断される。
【0165】次に、ステップS2704―2705で表の範囲、
つまりフィールド名に関するフィールド値がどの範囲で
あるかをシソーラスの類似度、もしくは文字列の類似度
によって特定する。この図では、1列目の3から5行目に
かけて「スミレ」「アサガオ」「ホウセンカ」とフィー
ルド名「花の名前」に関するフィールド値が記述されて
いるので、ステップS2704の処理によって、表が2行目か
ら5行目にかけての範囲であることが特定される。
【0166】最後にステップS2706の処理により、表の
範囲外の付加データを除去することで表を取り出すこと
が出来る。
【0167】以上述べたように、処理対象となっている
テーブルに対して、テーブルの構造やテーブルを構成す
る情報記述の規則性などを解析することにより、テーブ
ルをM行N列に規則正しく再構成することで正しくテーブ
ル分割することが出来る。
【0168】〔実施形態12〕本実施形態では、HTMLテー
ブル再構成部2501がマルチロー・マルチカラムテーブル
処理を行う。ここでは、HTMLテーブル保持部101に保持
されたテーブルデータを参照して、テーブルの構造を解
析することにより、テーブルをM行N列に漏れがなく規則
正しく再構成する。
【0169】次に、ステップS2600のHTMLテーブル再構
成の詳細について図29、30を用いて説明する。
【0170】マルチロー、マルチカラム表を類似した表
ごとに分類すると、1.フィールド名記述行のフィール
ドの構造とレコード部分のフィールドの構造を対応付け
ることで、レコードを取り出せるもの、2.フィールド
名記述行の構造をレコードのフィールド構造に合わせて
レコードを取り出せるもの、3.マルチロー・マルチカ
ラムになっているフィールド部分を読み替えることでレ
コードを取り出せるものとなる。1については図29が、
2、3については図30が処理の流れになっている。
【0171】ここで、マルチロー、マルチカラムになっ
ている表のデータを扱う際には、マルチローもしくはマ
ルチカラムのフィールドを最小単位のフィールドに分割
して保持する。その際、マルチロー、マルチカラムとな
っているフィールドのデータは、分割する段階で各々の
フィールドに同じデータを保持するようにしている。例
えば図41の(A)のようなマルチローマルチカラムで
は、最小単位のフィールドに分割してデータを保存す
る。よって、図41の(B)のように4行4列の表としてす
る。
【0172】1では、フィールド名記述行のフィールド
の構造とレコード部分のフィールドの構造を対応付ける
ことで、レコードを取り出す。
【0173】まず、フィールド名記述行のフィールドの
構造を解析する処理を図29を用いて説明する。
【0174】ステップS2901では、フィールドが存在す
ればステップS2902へ移る。存在しなければ、マルチロ
ー、マルチカラムの処理を終了する。
【0175】ステップS2902では、1行分のデータを抽出
して、ステップS2903では、フィールド名記述行の範囲
を判定し、ステップS2904へ移る。フィールド名記述行
の範囲は、現在保持している1行の各フィールドと1行前
の各フィールドと異なる行を調べることで判定できる。
【0176】例えば、図41の(C)のようなマルチロー
・マルチカラムでは、最小単位のフィールドに分割して
データが保存されているので、図41の(D)のように4行
4列の表となっている。ここでは、1行目と2行目のフィ
ールド間で同じデータを調べると、1行目と4行目とで一
致しているので、1行目と2行目はフィールド名記述行の
境界ではない。しかし、2行目と3行目のフィールド間で
同じデータを調べると、どのフィールドも一致していな
いので、2行目と3行目がフィールド名記述行の境界とな
り、フィールド名記述行の構造を把握することができ
る。
【0177】ステップS2904では、フィールド名記述行
の構造を把握できればへ移る。把握できなければ、ス
テップS2905で、1行分のデータを保持し、ステップS290
6で、現時点で調べている行までで、フィールド名記述
行のフィールドがどのような構造をしているのかを調査
し、ステップS2901へ戻る。
【0178】次に、解析したフィールド名記述行のフィ
ールドの構造を基にレコードを取り出す処理を説明す
る。ここでは、図41の(E)のようなフィールド名記述
行のフィールドの構造とレコードのフィールドの構造が
一致する表のレコードを取り出すことができる。また、
フィールドは1つ目のレコードのフィールドから開始す
る。
【0179】ステップS2907では、フィールドが存在す
ればステップS2908へ移る。存在しなければ、S2910へ移
る。ただし、フィールドが1つも存在しなければ、マル
チロー、マルチカラムの処理を終了する。
【0180】ステップS2908では、1レコード分のデータ
を抽出して、ステップS2909で、フィールド名記述行の
フィールドの構造と1レコードの構造が一致すればステ
ップS2907へ戻る。一致しなければへ移る。
【0181】ステップS2910では、フィールド名記述行
のフィールドの構造を基に、フィールド情報の再構成を
行う。
【0182】次に、解析したフィールド名記述行のフィ
ールドの構造を基にレコードを取り出す処理を図29を
用いて更に説明する。ここでは、図41の(F)のような
フィールド値のフィールドの構造によって対応するフィ
ールド名記述行が異なる表のレコードを取り出すことが
できる。この表は、フィールド名記述行は複数行で構成
されている。そこで、フィールド名記述行の各行のフィ
ールドに対して、このフィールドの構造と一致するレコ
ードを表の最後の行まで走査して対応付けをすること
で、表のレコードを取り出すことができる。
【0183】ステップS2911では、フィールド名記述行
のフィールド名が存在すればステップS2912へ移る。存
在しなければ、S2918へ移る。ただし、フィールドが1つ
も存在しなければ、マルチロー、マルチカラムの処理を
終了する。
【0184】ステップS2912では、フィールド名記述行
の1行分のデータを抽出し、ステップS2913では、抽出す
る1行分のデータがフィールド名記述行の最後の行まで
達していなければ、ステップS2914に移る。達していて1
行分のデータが抽出できなければ、へ移る。
【0185】ステップS2914では、フィールド名記述行
以外のフィールドが存在すればステップS2915へ移る。
存在しなければ、S2911へ戻る。ただし、フィールドが1
つも存在しなければ、マルチロー、マルチカラムの処理
を終了する。
【0186】ステップS2915では、1行分のデータを抽出
し、ステップS2916では、フィールド名記述行の1行分の
フィールド構造とステップS2915で抽出した1行分のフィ
ールド構造が一致すればステップS2917へ移る。一致し
なければステップS2914へ戻る。
【0187】ステップS2917では、現時点で走査してい
る行が一致するフィールド名記述行の構造情報を保持
し、ステップS2914へ戻る。
【0188】ステップS2918では、ステップS2917で保持
した構造情報を基に、フィールド情報の再構成を行う。
【0189】2では、すべてのレコードのフィールド構
造が一致している表であるので、フィールド名記述行の
構造をレコードのフィールド構造に合わせてレコードを
取り出すことができる。また、フィールドは1つ目のレ
コードのフィールドから開始する。
【0190】図30のステップS2919では、フィールド
が存在すればステップS2920へ移る。存在しなければ、S
2923へ移る。ただし、フィールドが1つも存在しなけれ
ば、マルチロー、マルチカラムの処理を終了する。
【0191】ステップS2920では、1行分のフィールドの
構造を調査し、ステップS2921では、1行分のデータがす
べて同じであれば複合表に帰着するのでマルチロー、マ
ルチカラムの処理を終了する。
【0192】すべてのレコードのフィールド構造が一致
している必要があるので、ステップS2922では、ここま
でで調査した1行分のフィールドの構造とステップS2920
で調査した1行分のフィールドの構造とが一致すればス
テップS2919へ戻る。一致しなければへ移る。
【0193】ステップS2929では、レコードのフィール
ドの構造を基に、フィールド名記述行の構造をレコード
のフィールド構造に合わせてフィールド情報の再構成を
行う。
【0194】3では、フィールド値のフィールド部分が
マルチロー、マルチカラムになっている表なので、マル
チロー、マルチカラムになっているフィールド部分を読
み替えることでレコードを取り出すことができる。ま
た、フィールドは1つ目のレコードのフィールドから開
始する。
【0195】ステップS2924では、フィールドが存在す
ればステップS2925へ移る。存在しなければ、マルチロ
ー、マルチカラムの処理を終了する。
【0196】ステップS2925では、1行分のフィールドの
構造を調査して、ステップS2926へ移る。
【0197】フィールド値のフィールド部分が細分化し
ているということは、このフィールドはマルチロー(ま
たはマルチカラム)になっている。そこで、ステップS2
926では、ステップS2925で1行分のフィールドの構造を
調査した結果、フィールド名より細分化しているならば
ステップS2927へ移る。そうでなければ、マルチロー、
マルチカラムの処理を終了する。
【0198】ステップS2927では、 S2925で調査した1行
分のフィールドの構造を基に、フィールド名記述行の構
造をレコードのフィールド構造に合わせてフィールド情
報の再構成を行う。
【0199】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。
【0200】〔実施形態13〕本実施形態では、HTMLテー
ブル再構成部2501が複合表処理を行う。ここでは、HTML
テーブル保持部101に保持されたテーブルデータを参照
して、情報記述の規則性を解析することにより、テーブ
ルをM行N列に漏れがなく規則正しく再構成する。
【0201】複合表とは、一つのテーブルに複数の表が
含まれたり、レコードが複数の行にまたがるなど単純に
テーブル解析を行うことが出来ない表である。
【0202】複合表を分類すると、1.表の中でフィー
ルド名記述行を再表記しているもの、2.同じフィール
ド名が複数並んでいるもの、3.表の途中で共通するフ
ィールド名に対する異なるフィールド名とそのフィール
ド値を表記しているもの、4.表の中に複数の表のまと
まりがあるもの、5.その他になる。ここでは1~4の解析
方法について述べることにする。
【0203】ここでステップS2600のHTMLテーブル再構
成の詳細について図31、32を用いて説明する。
【0204】図31の左側は、表の中でフィールド名記
述行を再表記している複合表の処理の流れである。ここ
では、フィールド名記述行のフィールド名がレコード中
に現れたときに、そのデータを取り除く処理を行う。
【0205】ステップS3101では、1行分のフィールド名
を保持し、ステップS3102では、フィールドが存在すれ
ばステップS3103へ移り、存在しなければへ移る。
【0206】ステップS3103では、1行分のフィールドを
保持し、ステップS3104では、ステップS3101とS3103の1
行分のフィールドを比較し、ステップS3105へ移る。
【0207】ステップS3105では、ステップS3104の比較
の結果、フィールドが一致していればステップS3105へ
移り、一致していなければステップS3106で、フィール
ド情報の再構成を行う。
【0208】図31の右側は、同じフィールド名が複数
並んでいる複合表の処理の流れである。ここでは、フィ
ールド名記述行のフィールド名を複数回併記している場
合に、データの並びを修正する処理を行う。
【0209】ステップS3107では、フィールドが存在す
ればステップS3108へ移り、存在しなければステップS31
12へ移る。ただし、フィールドが1つも存在しない場合
には、複合表の処理を終了する。
【0210】ステップS3108では、フィールド名を1個保
持し、ステップS3109へ移る。このフィールド名は、フ
ィールド名記述行に同じフィールド名が表記されている
かどうかを調べるのに利用される。
【0211】ステップS3109では、フィールド名記述行
のフィールドをすべて保持し、ステップS3110では、フ
ィールド名記述行に同じフィールド名が存在すればステ
ップS3111へ移り、存在しなければへ移る。
【0212】ステップS3111では、フィールド名が規則
的に並列していればステップS3107へ戻り、並列してい
なければへ移る。
【0213】ステップS3112では、フィールド情報の再
構成、位置関係グラフの再構成を行う。例えば図42の
(A)では、フィールド名「○○○」「×××」「△△
△」が2回並列している。そこで、1回目の並び(ハッチ
ングされた部分)のデータを保持し、その後に2回目の
並び(無色の部分)のデータを保持して再構成を行う。
【0214】図32の左側は、表の途中で共通するフィ
ールド名に対する異なるフィールド名とそのフィールド
値を表記している複合表の処理の流れである。ここで
は、一部のフィールド名だけが変わったフィールド名記
述行が再表記され、以降のフィールドに新しいフィール
ド名記述行に対するデータが記述されている場合に、デ
ータの並びを修正する処理を行う。
【0215】ステップS3113では、1行分のフィールド名
を保持し、ステップS3114では、フィールドが存在すれ
ばステップS3115へ移り、存在しなければステップS3119
へ移る。ただし、フィールドが1つも存在しなければ、
複合表の処理を終了する。
【0216】ステップS3115では、1行分のフィールドを
保持し、ステップS3116では、ステップS3113とS3115の1
行分のフィールドを比較し、ステップS3117へ移る。
【0217】ステップS3117では、S3116の比較の結果、
別のフィールドが存在すればステップS3118へ移り、存
在しなければステップS3114へ戻る。
【0218】ステップS3119では、フィールド情報の再
構成、位置関係グラフの再構成を行う。
【0219】例えば図42の(B)では、フィールド名
「○○○」「×××」「△△△」と「○○○」「□□
□」「◎◎◎」がある。そこで、フィールド名を「○○
○」「×××」「△△△」「□□□」「◎◎◎」として
これらのデータを保持して再構成を行う。
【0220】図32の右側は、表の中に複数の表のまと
まりがある複合表の処理の流れである。ここでは、フィ
ールド名が共通で、1つの表の中に複数の表が記述され
ている場合に、個々の表に分割する処理を行う。
【0221】ステップS3120では、1行分のフィールド名
を保持し、ステップS3121では、フィールドが存在すれ
ばステップS3122へ移り、存在しなければステップS3128
へ移る。ただし、フィールドが1つも存在しなければ、
複合表の処理を終了する。
【0222】ステップS3122では、1行分のフィールドを
保持し、ステップS3123では、現時点までにS3122で保持
したフィールドをすべて保持し、ステップS3124へ移
る。
【0223】ステップS3124では、1行にわたり同じデー
タが表記されていたら、このデータは表題であるので、
新しい表を作成するためにステップS3125へ移る。表記
されていなければ、ステップS3121へ戻る。ただし、1度
目はステップS3125へ移らず、ステップS3121へ戻る。
【0224】ステップS3125、S3126では、新規のフィー
ルド情報オブジェクトと位置関係オブジェクトを作成
し、ステップS3127へ移り、フィールド情報の再構成を
行う。
【0225】例えば図42の(C)では、共通なフィール
ド名に対して、2行目に表題1を4行目に表題2を表記して
いる。まず、1度目に表題1があったときには、データが
ないので新規の表の作成を行わない。2度目に表題2があ
ったときには、すでに表題1に関するデータを保持して
いるので、表題1に関する新規の表の作成を行う。最後
にフィールドがなくなったときには、表題2に関するデ
ータを保持しているので、表題2に関する新規の表の作
成を行う。
【0226】ステップS3128以降では、最後の表題の処
理が完了していないので後処理を行う。
【0227】まずステップS3128では、1行にわたり同じ
データが表記されていたら、新しい表を作成するために
ステップS3129へ移る。表記されていなければ、複合表
の処理を終了する。
【0228】ステップS3129、S3130では、新規のフィー
ルド情報オブジェクトと位置関係オブジェクトを作成
し、ステップS3131へ移り、フィールド情報の再構成を
行い、複合表の処理を終了する。
【0229】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。
【0230】〔実施形態14〕本実施形態では、HTMLテー
ブル再構成部2501が、図33に示すように、付加データ除
去部3301とマルチロー・マルチカラムテーブル処理部33
02で構成されている。
【0231】ここでステップS2600のHTMLテーブル再構
成の詳細について図34を用いて説明する。
【0232】ステップS3401では、HTMLテーブルデータ
から付加データを除去し、ステップS3402では、付加デ
ータを除去したテーブルデータを参照して、テーブルの
構造を解析することにより、テーブルをM行N列に漏れが
なく規則正しく再構成する。そして終了する。
【0233】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。
【0234】〔実施形態15〕本実施形態では、HTMLテー
ブル再構成部2501が、図35に示すように、付加データ除
去部3501と複合表処理部3502で構成されている。
【0235】ここでステップS2600のHTMLテーブル再構
成の詳細ついて図36を用いて説明する。
【0236】ステップS3601では、HTMLテーブルデータ
から付加データを除去し、ステップS3602では、付加デ
ータを除去したテーブルデータを参照して、情報記述の
規則性を解析することにより、テーブルをM行N列に漏れ
がなく規則正しく再構成する。そして終了する。
【0237】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。
【0238】〔実施形態16〕本実施形態では、HTMLテー
ブル再構成部2501が、図37に示すように、付加データ除
去部3701とマルチカラム・マルチロー処理部3702と複合
表処理部3703で構成されている。
【0239】ここでステップS2600のHTMLテーブル再構
成部について図38を用いて説明する。ステップS3801で
は、HTMLテーブルデータから付加データを除去し、ステ
ップS3802では、付加データを除去したテーブルデータ
を参照して、テーブルの構造を解析することにより、テ
ーブルをM行N列に漏れがなく規則正しく再構成しステッ
プS3803へ移る。
【0240】ステップS3803では、ステップS3802の再構
成データを参照して、情報記述の規則性を解析すること
により、テーブルをM行N列に漏れがなく規則正しく再構
成する。そして終了する。
【0241】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。
【0242】〔実施形態17〕本実施形態では、HTMLテー
ブル再構成部2501が、図39に示すように、マルチカラ
ム・マルチロー処理部3901と複合表処理部3902で構成さ
れている。
【0243】ここでステップS2600のHTMLテーブル再構
成の詳細について図40を用いて説明する。
【0244】ステップS4001では、付加データを除去し
たテーブルデータを参照して、テーブルの構造を解析す
ることにより、テーブルをM行N列に漏れがなく規則正し
く再構成しステップS4002へ移る。
【0245】ステップS4002では、ステップS4001の再構
成データを参照して、情報記述の規則性を解析すること
により、テーブルをM行N列に漏れがなく規則正しく再構
成する。そして終了する。
【0246】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。
【0247】なお、本発明は、複数の機器から構成され
るシステムに適用しても、1つの機器からなる装置に適
用してもよい。前述した実施形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ(またはCPUやMPU)が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても、達成されることは言うまでもない。
【0248】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記録した記録媒体
は本発明を構成することになる。
【0249】プログラムコードを供給するための記録媒
体としては、例えば、フロッピー(登録商標)ディス
ク、ハードディスク、光ディスク、光磁気ディスク、C
D−ROM、CD−R、磁気テープ、不揮発性のメモリ
カード、ROMなどを用いることができる。
【0250】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOSなどが
実際の処理の一部または全部を行ない、その処理によっ
て前述した実施形態の機能が実現される場合も含まれる
ことは言うまでもない。
【0251】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることは言うまでもない。
【0252】
【発明の効果】以上説明したように、本発明によれば、
文書中のテーブルを解析して、各セルの位置関係を示す
セル位置データと、各セルの特徴を表現したセルベクト
ルとを生成し、このセル位置データおよびセルベクトル
を参照して、処理対象のテーブルが表を記述したテーブ
ルか否かを判定し、判定結果に応じた手法でセグメント
を生成することで、文書中のテーブルを内容ごとに分割
する文書分割を実現できるという効果が得られる。
【図面の簡単な説明】
【図1】実施形態1の文書分割装置の基本構成を示すブ
ロック図である。
【図2】実施形態に係る文書分割装置のハードウエア構
成を示すブロック図である。
【図3】実施形態に係る文書分割装置の動作手順を示す
フローチャートである。
【図4】最大距離アルゴリズムを説明する図である。
【図5】実施形態2の文書分割装置の基本構成を示すブ
ロック図である。
【図6】実施形態3の文書分割装置の基本構成を示すブ
ロック図である。
【図7】実施形態4の文書分割装置の基本構成を示すブ
ロック図である。
【図8】HTML文書のテーブルの例を示す図である。
【図9】実施形態5の機能構成を示すブロック図であ
る。
【図10】実施形態5のテーブルタイプ判定部の構成を
示すブロック図である。
【図11】実施形態5のテーブルタイプ判定処理の手順
を示すフローチャートである。
【図12】HTML文書のテーブルの例を示す図である。
【図13】実施形態6のテーブルタイプ判定部の構成を
示すブロック図である。
【図14】実施形態6のテーブルタイプ判定処理の手順
を示すフローチャートである。
【図15】HTML文書のテーブルの例を示す図である。
【図16】実施形態7のテーブルタイプ判定部の構成を
示すブロック図である。
【図17】実施形態7のテーブルタイプ判定処理の手順
を示すフローチャートである。
【図18】実施形態8のテーブルタイプ判定部の構成を
示すブロック図である。
【図19】実施形態8のテーブルタイプ判定処理の手順
を示すフローチャートである。
【図20】実施形態9のテーブルタイプ判定部の構成を
示すブロック図である。
【図21】実施形態9のテーブルタイプ判定処理の手順
を示すフローチャートである。
【図22】実施形態10のテーブルタイプ判定部の構成
を示すブロック図である。
【図23】実施形態10のテーブルタイプ判定処理の手
順を示すフローチャートである。
【図24】HTML文書のテーブルの例を示す図である。
【図25】実施形態11に係る文書分割装置の機能構成
を示すブロック図である。
【図26】実施形態11における文書分割処理の手順を
示すフローチャートである。
【図27】実施形態11におけるHTMLテーブル再構成の
手順を示すフローチャートである。
【図28】HTML文書のテーブルの例を示す図である。
【図29】実施形態12におけるHTMLテーブル再構成の
手順を示すフローチャートである。
【図30】実施形態12におけるHTMLテーブル再構成の
手順を示すフローチャートである。
【図31】実施形態13におけるHTMLテーブル再構成の
手順を示すフローチャートである。
【図32】実施形態13におけるHTMLテーブル再構成の
手順を示すフローチャートである。
【図33】実施形態14のHTMLテーブル再構成部の構成
を示すブロック図である。
【図34】実施形態14におけるテーブル再構成処理の
手順を示すフローチャートである。
【図35】実施形態15のHTMLテーブル再構成部の構成
を示すブロック図である。
【図36】実施形態15におけるテーブル再構成処理の
手順を示すフローチャートである。
【図37】実施形態16のHTMLテーブル再構成部の構成
を示すブロック図である。
【図38】実施形態16におけるテーブル再構成処理の
手順を示すフローチャートである。
【図39】実施形態17のHTMLテーブル再構成部の構成
を示すブロック図である。
【図40】実施形態17におけるテーブル再構成処理の
手順を示すフローチャートである。
【図41】マルチロー、マルチカラムのテーブルの例を
示す図である。
【図42】複合表の例を示す図である。
【符号の説明】
101 HTMLテーブル保持部 102 テーブル解析部 103 セル位置データ保持部 104 セルベクトル保持部 105 テーブルタイプ判定部 106 テーブルタイプ保持部 107 カット方向決定部 108 カット方向保持部 109 表セグメント生成部 110 表セグメント保持部 111 セルクラスタ作成部 112 セルクラスタ情報保持部 113 レイアウトセグメント生成部 114 レイアウトセグメント保持部 201 CPU 202 ROM 203 RAM 204 ディスク装置 205 バス 501 HTML文書保持部 502 一般セグメント生成部 503 一般セグメント保持部 601、701 テーブルセグメント生成部 602、702 テーブルセグメント保持部 901 セルデータ保持部 1001、1602、1802、2203 シソーラス
・類似度判定部 1002、1603、1803、2204 シソーラス
辞書 1301、1601、2002、2202 部分文字列
抽出部 1302、2003 文字列比較部 1801、2001、2201 シンタックス判定部 2501 HTMLテーブル再構成部 2502 HTMLテーブル保持部 3301、3501、3701 付加データ除去部 3302、3702、3901 マルチロー・マルチカ
ラムテーブル処理部 3502、3703、3902 複合表処理部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤井 憲一 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 伊藤 史朗 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内

Claims (45)

    【特許請求の範囲】
  1. 【請求項1】 処理対象である文書中のテーブルを解析
    して、各セルの位置関係を示すセル位置データと、各セ
    ルの特徴を表現したセルベクトルとを生成するテーブル
    解析手段と、 該テーブル解析手段により生成されたセル位置データお
    よびセルベクトルを参照してテーブルタイプを判定する
    テーブルタイプ判定手段と、 前記テーブルタイプが表を記述したテーブルである場合
    に、前記テーブルからセグメントを生成する第1のセグ
    メント生成手段と、 前記テーブルタイプがレイアウトのためのテーブルであ
    る場合に、前記テーブルからセグメントを生成する第2
    のセグメント生成手段とを備えたことを特徴とする文書
    分割装置。
  2. 【請求項2】 前記第1のセグメント生成手段が、 前記セル位置データおよび前記セルベクトルを参照し
    て、前記テーブルにおいて各データが行または列のどち
    らで表現されているかを判別し、当該テーブルの分割方
    向を決める分割方向決定手段と、 前記テーブルタイプおよび前記分割方向を参照して、前
    記テーブルを分割してセグメントを生成する表セグメン
    ト生成手段とを備えたことを特徴とする請求項1に記載
    の文書分割装置。
  3. 【請求項3】 前記第2のセグメント生成手段が、前記
    テーブルそのものをセグメントとして生成することを特
    徴とする請求項2に記載の文書分割装置。
  4. 【請求項4】 前記第2のセグメント生成手段が、 前記セルベクトルを参照して、前記テーブルにおいて各
    セルをクラスタリングしてセルクラスタ情報を作成する
    セルクラスタ作成手段と、 前記セル位置データおよび前記セルクラスタ情報を参照
    して、前記テーブル中のセルを結合してセグメントを生
    成するレイアウトセグメント生成手段とを備えたことを
    特徴とする請求項1に記載の文書分割装置。
  5. 【請求項5】 前記第1のセグメント生成手段が、前記
    テーブルそのものをセグメントとして生成することを特
    徴とする請求項4に記載の文書分割装置。
  6. 【請求項6】 前記第2のセグメント生成手段が、前記
    テーブルそのものをセグメントとして生成することを特
    徴とする請求項2に記載の文書分割装置。
  7. 【請求項7】 テーブルを1つのセグメントとして文書
    をセグメントに分割する一般セグメント生成手段を備
    え、 該一般セグメント生成手段により1つのセグメントとし
    て生成されたテーブルを前記テーブル解析手段の処理対
    象とすることを特徴とする請求項1に記載の文書分割装
    置。
  8. 【請求項8】 前記テーブル解析手段が更に、解析した
    テーブルのセルデータを生成し、前記テーブルタイプ判
    定手段が前記セルデータを参照してテーブルタイプを判
    定する請求項1に記載の文書分割装置。
  9. 【請求項9】 前記テーブルタイプ判定手段が、前記テ
    ーブル解析手段により生成されたセル位置データおよび
    セルデータを参照して、特定の位置にあるセルデータ間
    の類似度に基づいてテーブルタイプを判定する類似度判
    定手段を備えた請求項8に記載の文書分割装置。
  10. 【請求項10】 前記テーブルタイプ判定手段が、前記
    テーブル解析手段により生成されたセル位置データおよ
    びセルデータを参照して、特定の位置にあるセルデータ
    から部分文字列を抽出する部分文字列抽出手段と、抽出
    された部分文字列を比較してテーブルタイプを判定する
    文字列比較手段とを備えた請求項8に記載の文書分割装
    置。
  11. 【請求項11】 前記テーブルタイプ判定手段が、前記
    テーブル解析手段により生成されたセル位置データおよ
    びセルデータを参照して、特定の位置にあるセルデータ
    から部分文字列を抽出する部分文字列抽出手段と、抽出
    された部分文字列間の類似度に基づいてテーブルタイプ
    を判定する類似度判定手段を備えた請求項8に記載の文
    書分割装置。
  12. 【請求項12】 前記テーブルタイプ判定手段が、前記
    テーブル解析手段により生成されたセル位置データおよ
    びセルベクトルおよびセルデータを参照してテーブルタ
    イプを判定するシンタックス判定手段と、該テーブル解
    析手段により生成されたセル位置データおよびセルデー
    タを参照して、特定の位置にあるセルデータ間の類似度
    に基づいてテーブルタイプを判定する類似度判定手段を
    備えた請求項8に記載の文書分割装置。
  13. 【請求項13】 前記テーブルタイプ判定手段が、前記
    テーブル解析手段により生成されたセル位置データおよ
    びセルベクトルおよびセルデータを参照してテーブルタ
    イプを判定するシンタックス判定手段と、該テーブル解
    析手段により生成されたセル位置データおよびセルデー
    タを参照して、特定の位置にあるセルデータから部分文
    字列を抽出する部分文字列抽出手段と、抽出された部分
    文字列を比較してテーブルタイプを判定する文字列比較
    手段とを備えた請求項8に記載の文書分割装置。
  14. 【請求項14】 前記テーブルタイプ判定手段が、前記
    テーブル解析手段により生成されたセル位置データおよ
    びセルベクトルおよびセルデータを参照してテーブルタ
    イプを判定するシンタックス判定手段と、該テーブル解
    析手段により生成されたセル位置データおよびセルデー
    タを参照して、特定の位置にあるセルデータから部分文
    字列を抽出する部分文字列抽出手段と、抽出された部分
    文字列間の類似度に基づいてテーブルタイプを判定する
    類似度判定手段を備えた請求項8に記載の文書分割装
    置。
  15. 【請求項15】 処理対象のテーブルを解析し、各行及
    び列のそれぞれでセル数が一定となるようにテーブルを
    再構成するテーブル再構成手段を備え、前記テーブル解
    析手段が、再構成されたテーブルを解析する請求項1に
    記載の文書分割装置。
  16. 【請求項16】 前記テーブル再構成手段が、テーブル
    データから表に付加されたデータを除去する付加データ
    除去手段を備えた請求項15に記載の文書分割装置。
  17. 【請求項17】 前記テーブル再構成手段が、テーブル
    データの構造を解析して、テーブルを規則正しく再構成
    するマルチロー・マルチカラム処理手段を備えた請求項
    15に記載の文書分割装置。
  18. 【請求項18】 前記テーブル再構成手段が、テーブル
    を構成する情報記述の規則性を解析して、テーブルを再
    構成する複合表処理手段を備えた請求項15に記載の文
    書分割装置。
  19. 【請求項19】 前記テーブル再構成手段が、 テーブルデータから表に付加されたデータを除去する付
    加データ除去手段と、 テーブルデータの構造を解析して、テーブルを規則正し
    く再構成するマルチロー・マルチカラム処理手段を備え
    た請求項15に記載の文書分割装置。
  20. 【請求項20】 前記テーブル再構成手段が、 テーブルデータから表に付加されたデータを除去する付
    加データ除去手段と、 テーブルを構成する情報記述の規則性を解析して、テー
    ブルを再構成する複合表処理手段とを備えた請求項15
    に記載の文書分割装置。
  21. 【請求項21】 前記テーブル再構成手段が、 テーブルデータの構造を解析して、テーブルを規則正し
    く再構成するマルチロー・マルチカラム処理手段と、 テーブルを構成する情報記述の規則性を解析して、テー
    ブルを再構成する複合表処理手段とを備えた請求項15
    に記載の文書分割装置。
  22. 【請求項22】 前記テーブル再構成手段が、 テーブルデータから表に付加されたデータを除去する付
    加データ除去手段と、 テーブルデータの構造を解析して、テーブルを規則正し
    く再構成するマルチロー・マルチカラム処理手段と、 テーブルを構成する情報記述の規則性を解析して、テー
    ブルを再構成する複合表処理手段とを備えた請求項15
    に記載の文書分割装置。
  23. 【請求項23】 処理対象である文書中のテーブルを解
    析して、各セルの位置関係を示すセル位置データと、各
    セルの特徴を表現したセルベクトルとを生成するテーブ
    ル解析工程と、 該テーブル解析工程により生成されたセル位置データお
    よびセルベクトルを参照してテーブルタイプを判定する
    テーブルタイプ判定工程と、 前記テーブルタイプが表を記述したテーブルである場合
    に、前記テーブルからセグメントを生成する第1のセグ
    メント生成工程と、 前記テーブルタイプがレイアウトのためのテーブルであ
    る場合に、前記テーブルからセグメントを生成する第2
    のセグメント生成工程とを備えたことを特徴とする文書
    分割方法。
  24. 【請求項24】 前記第1のセグメント生成工程が、 前記セル位置データおよび前記セルベクトルを参照し
    て、前記テーブルにおいて各データが行または列のどち
    らで表現されているかを判別し、当該テーブルの分割方
    向を決める分割方向決定工程と、 前記テーブルタイプおよび前記分割方向を参照して、前
    記テーブルを分割してセグメントを生成する表セグメン
    ト生成工程とを備えたことを特徴とする請求項23に記
    載の文書分割方法。
  25. 【請求項25】 前記第2のセグメント生成工程が、前
    記テーブルそのものをセグメントとして生成することを
    特徴とする請求項24に記載の文書分割方法。
  26. 【請求項26】 前記第2のセグメント生成工程が、 前記セルベクトルを参照して、前記テーブルにおいて各
    セルをクラスタリングしてセルクラスタ情報を作成する
    セルクラスタ作成工程と、 前記セル位置データおよび前記セルクラスタ情報を参照
    して、前記テーブル中のセルを結合してセグメントを生
    成するレイアウトセグメント生成工程とを備えたことを
    特徴とする請求項8に記載の文書分割方法。
  27. 【請求項27】 前記第1のセグメント生成工程が、前
    記テーブルそのものをセグメントとして生成することを
    特徴とする請求項26に記載の文書分割方法。
  28. 【請求項28】 前記第2のセグメント生成工程が、前
    記テーブルそのものをセグメントとして生成することを
    特徴とする請求項24に記載の文書分割方法。
  29. 【請求項29】 テーブルを1つのセグメントとして文
    書をセグメントに分割する一般セグメント生成工程を備
    え、 該一般セグメント生成工程により1つのセグメントとし
    て生成されたテーブルを前記テーブル解析工程の処理対
    象とすることを特徴とする請求項23に記載の文書分割
    方法。
  30. 【請求項30】 前記テーブル解析工程において更に、
    解析したテーブルのセルデータを生成し、前記テーブル
    タイプ判定工程では前記セルデータを参照してテーブル
    タイプを判定する請求項23に記載の文書分割方法。
  31. 【請求項31】 前記テーブルタイプ判定工程が、前記
    テーブル解析工程により生成されたセル位置データおよ
    びセルデータを参照して、特定の位置にあるセルデータ
    間の類似度に基づいてテーブルタイプを判定する類似度
    判定工程を備えた請求項30に記載の文書分割方法。
  32. 【請求項32】 前記テーブルタイプ判定工程が、前記
    テーブル解析工程により生成されたセル位置データおよ
    びセルデータを参照して、特定の位置にあるセルデータ
    から部分文字列を抽出する部分文字列抽出工程と、抽出
    された部分文字列を比較してテーブルタイプを判定する
    文字列比較工程とを備えた請求項30に記載の文書分割
    方法。
  33. 【請求項33】 前記テーブルタイプ判定工程が、前記
    テーブル解析工程により生成されたセル位置データおよ
    びセルデータを参照して、特定の位置にあるセルデータ
    から部分文字列を抽出する部分文字列抽出工程と、抽出
    された部分文字列間の類似度に基づいてテーブルタイプ
    を判定する類似度判定工程を備えた請求項30に記載の
    文書分割方法。
  34. 【請求項34】 前記テーブルタイプ判定工程が、前記
    テーブル解析工程により生成されたセル位置データおよ
    びセルベクトルおよびセルデータを参照してテーブルタ
    イプを判定するシンタックス判定工程と、該テーブル解
    析工程により生成されたセル位置データおよびセルデー
    タを参照して、特定の位置にあるセルデータ間の類似度
    に基づいてテーブルタイプを判定する類似度判定工程を
    備えた請求項30に記載の文書分割方法。
  35. 【請求項35】 前記テーブルタイプ判定工程が、前記
    テーブル解析工程により生成されたセル位置データおよ
    びセルベクトルおよびセルデータを参照してテーブルタ
    イプを判定するシンタックス判定工程と、該テーブル解
    析工程により生成されたセル位置データおよびセルデー
    タを参照して、特定の位置にあるセルデータから部分文
    字列を抽出する部分文字列抽出工程と、抽出された部分
    文字列を比較してテーブルタイプを判定する文字列比較
    工程とを備えた請求項30に記載の文書分割方法。
  36. 【請求項36】 前記テーブルタイプ判定工程が、前記
    テーブル解析工程により生成されたセル位置データおよ
    びセルベクトルおよびセルデータを参照してテーブルタ
    イプを判定するシンタックス判定工程と、該テーブル解
    析工程により生成されたセル位置データおよびセルデー
    タを参照して、特定の位置にあるセルデータから部分文
    字列を抽出する部分文字列抽出工程と、抽出された部分
    文字列間の類似度に基づいてテーブルタイプを判定する
    類似度判定工程を備えた請求項30に記載の文書分割方
    法。
  37. 【請求項37】 処理対象のテーブルを解析し、各行及
    び列のそれぞれでセル数が一定となるようにテーブルを
    再構成するテーブル再構成工程を備え、前記テーブル解
    析工程では、再構成されたテーブルを解析する請求項2
    3に記載の文書分割方法。
  38. 【請求項38】 前記テーブル再構成工程が、テーブル
    データから表に付加されたデータを除去する付加データ
    除去工程を備えた請求項37に記載の文書分割方法。
  39. 【請求項39】 前記テーブル再構成工程が、テーブル
    データの構造を解析して、テーブルを規則正しく再構成
    するマルチロー・マルチカラム処理工程を備えた請求項
    37に記載の文書分割方法。
  40. 【請求項40】 前記テーブル再構成工程が、テーブル
    を構成する情報記述の規則性を解析して、テーブルを再
    構成する複合表処理工程を備えた請求項37に記載の文
    書分割方法。
  41. 【請求項41】 前記テーブル再構成工程が、 テーブルデータから表に付加されたデータを除去する付
    加データ除去工程と、 テーブルデータの構造を解析して、テーブルを規則正し
    く再構成するマルチロー・マルチカラム処理工程を備え
    た請求項37に記載の文書分割方法。
  42. 【請求項42】 前記テーブル再構成工程が、 テーブルデータから表に付加されたデータを除去する付
    加データ除去工程と、 テーブルを構成する情報記述の規則性を解析して、テー
    ブルを再構成する複合表処理工程とを備えた請求項37
    に記載の文書分割方法。
  43. 【請求項43】 前記テーブル再構成工程が、 テーブルデータの構造を解析して、テーブルを規則正し
    く再構成するマルチロー・マルチカラム処理工程と、 テーブルを構成する情報記述の規則性を解析して、テー
    ブルを再構成する複合表処理工程とを備えた請求項37
    に記載の文書分割方法。
  44. 【請求項44】 前記テーブル再構成工程が、 テーブルデータから表に付加されたデータを除去する付
    加データ除去工程と、 テーブルデータの構造を解析して、テーブルを規則正し
    く再構成するマルチロー・マルチカラム処理工程と、 テーブルを構成する情報記述の規則性を解析して、テー
    ブルを再構成する複合表処理工程とを備えた請求項37
    に記載の文書分割方法。
  45. 【請求項45】 処理対象である文書中のテーブルを解
    析して、各セルの位置関係を示すセル位置データと、各
    セルの特徴を表現したセルベクトルとを生成するテーブ
    ル解析工程と、 該テーブル解析工程により生成されたセル位置データお
    よびセルベクトルを参照してテーブルタイプを判定する
    テーブルタイプ判定工程と、 前記テーブルタイプが表を記述したテーブルである場合
    に、前記テーブルからセグメントを生成する第1のセグ
    メント生成工程と、 前記テーブルタイプがレイアウトのためのテーブルであ
    る場合に、前記テーブルからセグメントを生成する第2
    のセグメント生成工程とをコンピュータに実行させるた
    めの文書分割プログラムを記憶したことを特徴とする記
    憶媒体。
JP2000081870A 1999-03-23 2000-03-23 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体 Withdrawn JP2000339301A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000081870A JP2000339301A (ja) 1999-03-23 2000-03-23 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体
US09/533,255 US6865720B1 (en) 1999-03-23 2000-03-23 Apparatus and method for dividing document including table

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7758399 1999-03-23
JP11-77583 1999-03-23
JP2000081870A JP2000339301A (ja) 1999-03-23 2000-03-23 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2000339301A true JP2000339301A (ja) 2000-12-08

Family

ID=26418663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000081870A Withdrawn JP2000339301A (ja) 1999-03-23 2000-03-23 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体

Country Status (2)

Country Link
US (1) US6865720B1 (ja)
JP (1) JP2000339301A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005024652A2 (en) * 2003-09-11 2005-03-17 Opera Software Asa Distinguishing and displaying tables in documents
JP2007505391A (ja) * 2003-09-11 2007-03-08 オペラ ソフトウェア エイエスエイ 文書内のテーブルの識別および表示
JP2011008797A (ja) * 2010-07-20 2011-01-13 Fujitsu Ltd レイアウト機能付きブラウザプログラム
JP2017201482A (ja) * 2016-05-06 2017-11-09 日本電信電話株式会社 分類器学習装置、表種類分類装置、方法、及びプログラム
KR20190011422A (ko) * 2017-07-25 2019-02-07 주식회사 한글과컴퓨터 셀 자동 분할 장치
KR102102276B1 (ko) * 2018-12-28 2020-04-22 동국대학교 산학협력단 딥러닝 기반의 표 유사도 측정 방법
JP2020177425A (ja) * 2019-04-17 2020-10-29 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2020261344A1 (ja) * 2019-06-24 2020-12-30 日本電信電話株式会社 データ処理装置、データ処理方法及びデータ処理プログラム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421649B1 (en) 2003-04-28 2008-09-02 Adobe Systems Incorporated Enhanced visual table editing
JP3982454B2 (ja) * 2003-05-27 2007-09-26 ソニー株式会社 携帯型電子機器、ウェブページ処理方法およびプログラム
US7143340B2 (en) * 2003-06-27 2006-11-28 Microsoft Corporation Row sharing techniques for grid controls
US20050068290A1 (en) * 2003-09-28 2005-03-31 Denny Jaeger Method for creating and using user-friendly grids
US20050091606A1 (en) * 2003-10-24 2005-04-28 Volker Sauermann Systems and methods for displaying wrapped lists
US7299406B2 (en) * 2004-06-02 2007-11-20 Research In Motion Limited Representing spreadsheet document content
US7657830B2 (en) * 2005-05-04 2010-02-02 Microsoft Corporation Layout size sharing in a grid layout for a user interface
US7966271B2 (en) * 2008-05-12 2011-06-21 Microsoft Corporation Device influenced table formatting
JP2010015554A (ja) * 2008-06-03 2010-01-21 Just Syst Corp 表構造解析装置、表構造解析方法および表構造解析プログラム
JP2011159179A (ja) * 2010-02-02 2011-08-18 Canon Inc 画像処理装置及びその処理方法
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US9171272B2 (en) 2010-12-17 2015-10-27 Microsoft Technology Licensing, LLP Automated generation of analytic and visual behavior
US9104992B2 (en) 2010-12-17 2015-08-11 Microsoft Technology Licensing, Llc Business application publication
US9864966B2 (en) 2010-12-17 2018-01-09 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9069557B2 (en) 2010-12-17 2015-06-30 Microsoft Technology Licensing, LLP Business intelligence document
US9024952B2 (en) 2010-12-17 2015-05-05 Microsoft Technology Licensing, Inc. Discovering and configuring representations of data via an insight taxonomy
US9304672B2 (en) 2010-12-17 2016-04-05 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9111238B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data feed having customizable analytic and visual behavior
US9110957B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9336184B2 (en) 2010-12-17 2016-05-10 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US20140164892A1 (en) * 2012-12-11 2014-06-12 Microsoft Corporation Consuming content incrementally
JP6052801B2 (ja) * 2013-07-31 2016-12-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書間における記載事項関連付けシステム、方法、及び、プログラム
CN110705213B (zh) * 2019-08-23 2023-11-14 平安科技(深圳)有限公司 Pdf表格提取方法、装置、终端及计算机可读存储介质
US20220335240A1 (en) * 2021-04-15 2022-10-20 Microsoft Technology Licensing, Llc Inferring Structure Information from Table Images

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2789971B2 (ja) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 表認識装置
US6006240A (en) * 1997-03-31 1999-12-21 Xerox Corporation Cell identification in table analysis
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
US6442575B2 (en) * 1998-06-17 2002-08-27 Microsoft Corporation Method and system for merging cells in a table and for adding an integrated header and a nested table to a table in an electronic document
US20020091728A1 (en) * 1998-08-05 2002-07-11 Henrik Kjaer Multidimensional electronic spreadsheet system and method
US20020054126A1 (en) * 1998-10-16 2002-05-09 Owen John Gamon Browser translation between frames and no frames
US6496832B2 (en) * 1998-10-20 2002-12-17 University Of Minnesota Visualization spreadsheet
US20030071848A1 (en) * 1998-12-15 2003-04-17 Michael Carroll System and method for presenting tables in selectable portions
US6535896B2 (en) * 1999-01-29 2003-03-18 International Business Machines Corporation Systems, methods and computer program products for tailoring web page content in hypertext markup language format for display within pervasive computing devices using extensible markup language tools
US7509571B2 (en) * 2001-01-03 2009-03-24 Sun Microsystems, Inc. Method and apparatus for a file format for storing spreadsheet compactly

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005024652A2 (en) * 2003-09-11 2005-03-17 Opera Software Asa Distinguishing and displaying tables in documents
WO2005024652A3 (en) * 2003-09-11 2005-07-28 Opera Software Asa Distinguishing and displaying tables in documents
JP2007505391A (ja) * 2003-09-11 2007-03-08 オペラ ソフトウェア エイエスエイ 文書内のテーブルの識別および表示
JP4701173B2 (ja) * 2003-09-11 2011-06-15 オペラ ソフトウェア エイエスエイ 文書内のテーブルの識別および表示
US8122338B2 (en) 2003-09-11 2012-02-21 Opera Software Asa Distinguishing and displaying tables in documents
JP2011008797A (ja) * 2010-07-20 2011-01-13 Fujitsu Ltd レイアウト機能付きブラウザプログラム
JP2017201482A (ja) * 2016-05-06 2017-11-09 日本電信電話株式会社 分類器学習装置、表種類分類装置、方法、及びプログラム
KR20190011422A (ko) * 2017-07-25 2019-02-07 주식회사 한글과컴퓨터 셀 자동 분할 장치
KR101999549B1 (ko) * 2017-07-25 2019-07-12 주식회사 한글과컴퓨터 셀 자동 분할 장치
KR102102276B1 (ko) * 2018-12-28 2020-04-22 동국대학교 산학협력단 딥러닝 기반의 표 유사도 측정 방법
JP2020177425A (ja) * 2019-04-17 2020-10-29 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2020261344A1 (ja) * 2019-06-24 2020-12-30 日本電信電話株式会社 データ処理装置、データ処理方法及びデータ処理プログラム
JPWO2020261344A1 (ja) * 2019-06-24 2020-12-30
JP7192991B2 (ja) 2019-06-24 2022-12-20 日本電信電話株式会社 データ処理装置、データ処理方法及びデータ処理プログラム

Also Published As

Publication number Publication date
US6865720B1 (en) 2005-03-08

Similar Documents

Publication Publication Date Title
JP2000339301A (ja) 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
CN111881307B (zh) 一种演示文稿生成方法、装置、计算机设备及存储介质
US9069855B2 (en) Modifying a hierarchical data structure according to a pseudo-rendering of a structured document by annotating and merging nodes
EP2341450A1 (en) Method and means for data searching and language translation
US20070118519A1 (en) Question answering system, data search method, and computer program
US7567954B2 (en) Sentence classification device and method
US20100042623A1 (en) System and method for mining and tracking business documents
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
CN113704667A (zh) 一种招标公告的自动提取处理方法和装置
CN112380337A (zh) 基于富文本的高亮方法及装置
Coelho et al. Structured literature image finder: extracting information from text and images in biomedical literature
WO1995030981A1 (en) A method and system for real-time information analysis of textual material
Pembe et al. Automated querybiased and structure-preserving text summarization on web documents
Kiran et al. An approach towards establishing reference linking in desktop reference manager
JP3937741B2 (ja) 文書の標準化
CN116340259A (zh) 文档管理方法、文档管理系统和计算设备
JP2001331490A (ja) 構造化文書格納装置、構造化文書検索装置、構造化文書格納検索装置及びプログラム並びにプログラム記録媒体
Kamiński Visualisation of collocational preferences for near-synonym discrimination
Ng et al. VFX: A VISION-BASED APPROACH TO FORUM DATA EXTRACTION
Wang et al. qRead: A fast and accurate article extraction method from web pages using partition features optimizations
US20030217051A1 (en) Information retrieving apparatus and storage medium storing information retrieving software therein
JP4899128B2 (ja) 関連語統合システム
JP2001101207A (ja) 文書要約装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605