JP2000339301A

JP2000339301A - 文書分割装置及び方法、及びそのプログラムを記憶した記憶媒体

Info

Publication number: JP2000339301A
Application number: JP2000081870A
Authority: JP
Inventors: Noriko Otani; 紀子大谷; Toshiaki Eguri; 俊明殖栗; Kenichi Fujii; 憲一藤井; Shiro Ito; 史朗伊藤; Takanari Ueda; 隆也上田; Yuji Ikeda; 裕治池田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-03-23
Filing date: 2000-03-23
Publication date: 2000-12-08
Also published as: US6865720B1

Abstract

(57)【要約】【課題】 HTML文書中のテーブルを内容ごとに分割す
る。【解決手段】 HTML文書中のテーブルを解析して、各セ
ルの位置関係を示すセル位置データと各セルの特徴を表
現したセルベクトルとを生成し(S301)、このセル位置デ
ータおよびセルベクトルを参照してテーブルタイプを判
定し(S302)、表を記述したテーブルの場合は、セル位置
データおよびセルベクトルを参照して、各データは行ま
たは列のどちらで表現されているかを判別し、テーブル
の分割方向を決め(S304)、テーブルタイプおよび分割方
向を参照してセグメントを生成し(S305)、表を記述した
テーブルでないレイアウト目的のテーブルの場合は、セ
ルベクトルを参照して各セルをクラスタリングし(S30
6)、セル位置データおよびセルクラスタ情報を参照して
セグメントを生成する(S307)。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書を内容ごとに
分割する文書分割装置とその方法、特に、テーブルを含
む文書を分割する文書分割装置とその方法に関するもの
である。

【０００２】

【従来の技術】従来、Web上の情報は「ページ」という
単位で提供されており、ページの構成や大きさは情報提
供者が自由に設定できる。もちろん、情報提供者は各自
の情報伝達意図に基づいてページを作成しているのだ
が、それが必ずしも閲覧者の要求と一致しているとは限
らない。

【０００３】従って、情報提供者によって関連性が高い
と判断された一連の話題が１ページにまとめられていて
も、閲覧者にとってはそれらの関連性が不要である可能
性もあり、複数の話題のうちの１つだけが有用である場
合には、他の話題の情報は必要な情報を探索する際の妨
げにすらなる。特に、情報提示スペースの小さいモバイ
ル機器では、必要な情報だけを表示するということが重
要な機能となる。

【０００４】そこで、表示対象である文書をあらかじめ
内容ごとに分割しておき、閲覧者が必要としている部分
だけを提示することが重要となる。Webページの大半
は、Webページ記述言語であるHTML (Hyper Text Markup
Language)を用いて書かれている。HTMLは文書構造を記
述する言語であるが、論理構造の詳細を記述することは
難しく、ブラウザにおけるレイアウトの指定が主な役割
となっている。

【０００５】しかし、ページのレイアウトには、情報提
供者の情報に対する視点が反映されていると考えられ
る。そこで、情報提供者の意図を反映したセグメントを
生成するために、HTMLのタグから読み取ったレイアウト
に基づいてページを分割する手法が提案されている。

【０００６】

【発明が解決しようとする課題】上記提案の手法では、
<TABLE>タグと</TABLE>タグで囲まれたテーブルは、意
味的なまとまりであると判断されて、１つのセグメント
として形成されている。しかしながら、テーブルは、比
較的大きな領域を占めて複数の情報を含んでいる場合が
多いため、さらに細かいセグメントに分割することが望
ましい。

【０００７】その際、テーブルは、単純な表を記述して
いる場合と、テキストやイメージのレイアウトを指定し
ている場合とがあるが、両者においてタグに含まれた意
図はまったく異なるので、それぞれ違うアプローチでセ
グメントを生成すべきである。

【０００８】単純な表を記述している場合は、含まれて
いるデータごとにセグメントを生成することで、ユーザ
のより細かい要求に備えることができると考えられる。
ところが、一口に表を記述していると言っても、１組の
データが行で表現されていたり列で表現されていたり、
項目名を記述した行(または列)があったりなかったり
と、様々な表の形式が存在する。従って、表をデータご
とのセグメントに分割するためには、表の形式を判断す
る必要がある。

【０００９】一方、テキストやイメージをレイアウトす
るためにテーブルタグを使っている場合は、各セルに記
述された内容とセル同士の位置関係からセル間の関係を
推定し、内容のまとまりを判断してセグメントを生成す
ることが望まれる。

【００１０】本発明は、上記の課題に鑑みてなされたも
のであり、処理対象となっているテーブルを解析して、
表を記述したテーブルであるか、レイアウト目的のテー
ブルであるかを判別し、それぞれに応じた処理によって
セグメントを生成することで、文書中のテーブルを内容
ごとに分割する文書分割装置を提供することを目的とす
る。

【００１１】

【課題を解決するための手段】上述した目的を達成する
ために、本発明によれば、文書分割装置に、処理対象で
ある文書中のテーブルを解析して、各セルの位置関係を
示すセル位置データと、各セルの特徴を表現したセルベ
クトルとを生成するテーブル解析手段と、該テーブル解
析手段により生成されたセル位置データおよびセルベク
トルを参照してテーブルタイプを判定するテーブルタイ
プ判定手段と、前記テーブルタイプが表を記述したテー
ブルである場合に、前記テーブルからセグメントを生成
する第１のセグメント生成手段と、前記テーブルタイプ
がレイアウトのためのテーブルである場合に、前記テー
ブルからセグメントを生成する第２のセグメント生成手
段とを備える。

【００１２】また、本発明の他の態様によれば、文書分
割方法に、処理対象である文書中のテーブルを解析し
て、各セルの位置関係を示すセル位置データと、各セル
の特徴を表現したセルベクトルとを生成するテーブル解
析工程と、該テーブル解析工程により生成されたセル位
置データおよびセルベクトルを参照してテーブルタイプ
を判定するテーブルタイプ判定工程と、前記テーブルタ
イプが表を記述したテーブルである場合に、前記テーブ
ルからセグメントを生成する第１のセグメント生成工程
と、前記テーブルタイプがレイアウトのためのテーブル
である場合に、前記テーブルからセグメントを生成する
第２のセグメント生成工程とを備える。

【００１３】更に、本発明の他の態様によれば、記憶媒
体に、処理対象である文書中のテーブルを解析して、各
セルの位置関係を示すセル位置データと、各セルの特徴
を表現したセルベクトルとを生成するテーブル解析工程
と、該テーブル解析工程により生成されたセル位置デー
タおよびセルベクトルを参照してテーブルタイプを判定
するテーブルタイプ判定工程と、前記テーブルタイプが
表を記述したテーブルである場合に、前記テーブルから
セグメントを生成する第１のセグメント生成工程と、前
記テーブルタイプがレイアウトのためのテーブルである
場合に、前記テーブルからセグメントを生成する第２の
セグメント生成工程とをコンピュータに実行させるため
の文書分割プログラムを記憶する。

【００１４】

【発明の実施の形態】〔実施形態１〕以下、図面を用い
て本発明の１実施形態を詳細に説明する。

【００１５】図１は、本実施形態の文書分割装置の機能
構成を示すブロック図である。同図において、101は、
処理対象であるHTML文書中のテーブル(<table>と</tabl
e>で囲まれた部分)を保持するHTMLテーブル保持部であ
る。

【００１６】102は、HTMLテーブル保持部101に保持され
ているテーブルを解析して、各セルの位置関係を示すセ
ル位置データと、各セルの特徴を表現したセルベクトル
とを生成するテーブル解析部である。

【００１７】セルベクトルは、セルの高さや幅、内容の
表示位置、背景色、セル内のテキストの長さや文字種、
セル内のイメージの大きさや形などから決定する。セル
ベクトルの次元は(セル内のイメージの個数×4＋17)次
元であり、各成分は0以上1以下の実数である。

【００１８】セル内でi番目に出現するイメージをimage
iとするとき、セルベクトルvの第k成分v(k)は次のよう
に定義される。 v(0)：タグの種類が<TH>(項目名を表現するセル)のと
き1.0、<TD>(データを表現するセル)のとき0.0。 v(1)： rowspan（行幅）が4未満のときrowspan×0.25、
4以上のとき1.0。 v(2)： colspan（列幅）が4未満のときcolspan×0.25、
4以上のとき1.0。 v(3)： nowrap（改行なし）が指定されているとき1.0、
指定されていないとき0.0。 v(4)： align（横位置）の指定がないとき0.0、left
（左詰め）のとき0.2、center（中央）のとき0.4、righ
t（右詰め）のとき0.6、justify（均等）のとき0.8、そ
れ以外のとき1.0。 v(5)： valign（縦位置）の指定がないとき0.0、top
（上詰め）のとき0.2、middle（中央）のとき0.4、bott
om（下詰め）のとき0.6、baseline（ベースライン）の
とき0.8、それ以外のとき1.0。 v(6)： bgcolor（背景色）の指定がないとき0.0、16進
コードで指定されていないとき0.0、16進コードで指定
されているときbgcolor/0xFFFFFF。 v(7)： 9列目以前のとき(列番号)×0.1、10列目以降の
とき1.0。 v(8)： 99行目以前のとき(行番号)×0.01、100行目以降
のとき1.0。 v(9)：改行(<BR>)数が5つ未満のとき(改行数)×0.2、5
つ以上のとき1.0。 v(10)：テキストの文字数が100文字未満のとき(文字
数)×0.01、100文字以上のとき1.0。 v(11)： (テキスト中の数字の数)/(テキストの全文字
数)。 v(12)： (テキスト中のアルファベットの数)/(テキスト
の全文字数)。 v(13)： (テキスト中の漢字の数)/(テキストの全文字
数)。 v(14)： (テキスト中のカタカナの数)/(テキストの全文
字数)。 v(15)： (テキスト中のひらがなの数)/(テキストの全文
字数)。 v(16)：句点(“。”または“．”)があるとき1.0、な
いとき0.0。 v(13＋i×4)： image_iの面積が150000未満のとき(面積)
/150000、150000以上のとき1.0。 v(14＋i×4)： image_iの高さが300未満のとき(高さ)/30
0、300以上のとき1.0。 v(15＋i×4)： image_iの幅が500未満のとき(幅)/500、5
00以上のとき1.0。 v(16＋i×4)：このテーブルを含んでいるページのURL
を示す文字列のうち、image_iのURLと共通の部分文字列
の割合。例えば、 http://hogehoge.aaa.bbbbb.co.jp:8080/hoge1/hoge2/h
oge.html のページ(URLの長さは58)に“../image/hoge.gif”とい
うイメージがあった場合、イメージをフルパスのURLに
書き換えると、 http://hogehoge.aaa.bbbbb.co.jp:8080/hoge1/image/h
oge.gif となるので、共通の部分文字列は http://hogehoge.aaa.bbbbb.co.jp:8080/hoge1/ となる。この長さは43なので、この成分の値は43÷58＝
0.741となる。

【００１９】103は、テーブル解析部102により生成され
たセル位置データを保持するセル位置データ保持部であ
る。104は、テーブル解析部102により生成されたセルベ
クトルを保持するセルベクトル保持部である。

【００２０】105は、セル位置データ保持部103に保持さ
れたセル位置データ、およびセルベクトル保持部104に
保持されたセルベクトルを参照してテーブルタイプを判
定し、テーブルタイプによってカット方向決定部107、
またはセルクラスタ作成部111に処理開始を指示するテ
ーブルタイプ判定部である。テーブルタイプには、以下
のtable I〜table VIIの7種類がある。 table I：すべてのセルの高さと幅が1であり、1行n列
目及びn行1列目のセルがすべて<TH>または同じ背景色。 table II：すべてのセルの高さと幅が1であり、1行n列
目及びn行1列目(1行1列目を除く)のセルがすべて<TH>ま
たは同じ背景色。 table III：すべてのセルの高さと幅が1であり、1行n
列目のセルがすべて<TH>または同じ背景色。 table IV：すべてのセルの高さと幅が1であり、1行n列
目(1行1列目を除く)のセルがすべて<TH>または同じ背景
色。 table V：すべてのセルの高さと幅が1であり、n行1列
目のセルがすべて<TH>または同じ背景色。 table VI：すべてのセルの高さと幅が1であり、n行1列
目(1行1列目を除く)のセルがすべて<TH>または同じ背景
色。 table VII： table I〜table VI以外のテーブル。

【００２１】以上において、table I〜table VIが表を
記述するためのテーブルであり、table VIIがレイアウ
ト目的のテーブルである。テーブルタイプがtable I〜t
able VIの場合にはカット方向決定部107に処理開始を指
示し、テーブルタイプがtableVIIの場合にはセルクラス
タ作成部111に処理開始を指示する。

【００２２】106は、テーブルタイプ判定部105により決
定されたテーブルタイプを保持するテーブルタイプ保持
部である。

【００２３】107は、テーブルタイプ判定部105により処
理開始を指示された場合に、セル位置データ保持部103
に保持されたセル位置データ、およびセルベクトル保持
部104に保持されたセルベクトルを参照して、表を記述
したテーブルにおいて各データは行または列のどちらで
表現されているかを判別し、テーブルの分割方向を決め
るカット方向決定部である。

【００２４】N行M列のテーブルTを行で分割したときの
スコアS_h(T)と列で分割したときのスコアS_v(T)を以下の
ように定義する。以下で、cos(v_i,j，v_k,l)はi行j列目
のセルのテーブルセルベクトルvi,ｊとk行l列目のセル
のテーブルセルベクトルv_k,lとの余弦値を表す。

【００２５】ただし、これはi行j列目のセルとk行l列目
のセルのデータとが共に存在するときにのみ算出される
値で、両方もしくはどちらか一方のセルのデータが存在
しない場合には、値は0となる。

【００２６】

【外１】

【００２７】テーブルセルベクトルの次元は、i行j列目
のセルとk行l列目のセルに含まれるイメージの数により
決定されるので、両ベクトルの次元が同じになるよう
に、低次元のテーブルセルベクトルに値0の成分を追加
して余弦値を計算する。

【００２８】S_h(T)は同じ行にある２つのセルのテーブ
ルセルベクトルの平均余弦値であり、S_v(T)は同じ列に
ある２つのセルのテーブルセルベクトルの平均余弦値で
ある。２つのテーブルセルベクトルの余弦値はセルの類
似度と見なせるので、S_h(T)はテーブルを行ごとに分割
した時の同セグメント内におけるセル間の平均類似度、
S_v(T)はテーブルを列ごとに分割した時の同セグメント
内におけるセル間の平均類似度といえる。

【００２９】各セグメントに各種のデータを盛り込むに
は、同セグメント内セル間類似度が低い方が良いので、
S_h(T)≦S_v(T)のときはテーブルTを行ごとに分割し、S
_h(T)＞S_v(T)のときテーブルTを列ごとに分割するべきだ
と判断する。

【００３０】108は、カット方向決定部107により決定さ
れたカット方向を保持するカット方向保持部である。

【００３１】109は、テーブルタイプ保持部106に保持さ
れたテーブルタイプ、およびカット方向保持部108に保
持されたカット方向を参照して、表を記述したテーブル
からセグメントを生成する表セグメント生成部である。
カット方向が行方向の場合、table Vのテーブルはその
まま行をセグメントとし、table V以外のテーブルは1行
目を組み合わせてセグメントを作る。カット方向が列方
向の場合、table IIIのテーブルはそのまま列をセグメ
ントとし、table III以外のテーブルは1列目を組み合わ
せてセグメントを作る。

【００３２】110は、表セグメント生成部109により生成
された表セグメントを保持する表セグメント保持部であ
る。

【００３３】111は、テーブルタイプ判定部105により処
理開始を指示された場合に、セルベクトル保持部104に
保持されたセルベクトルを参照して、レイアウト目的の
テーブルにおいて各セルをクラスタリングするセルクラ
スタ作成部である。ここでは最大距離アルゴリズムを用
いてセルの分類を決定する。最大距離アルゴリズムのク
ラスタリング手順を以下に示す。

【００３４】Step.1： N個のサンプルパターン集合X =
｛x₁,x₂,…,x_N｝から、任意にひとつ(ここではx₁として
説明する)を選び、クラスタ中心z₁∈Zとする。 Step.2： Zに含まれないすべてのx_i∈Xについて、すで
に選ばれたクラスタ中心z _j∈Zのうち、一番近いものま
での距離dx_iを計算する。Max{dx_i}を与えるx_iをx_Cとす
る。 Step.3：すべてのz_k∈Zについて、z_k以外のクラスタ中
心のうち、一番遠いものまでの距離dz_kを計算する。 Step.4： dx_C≧max{dz_k}×t(t=0.5〜1)が成立すると
き、x_Cを新たなクラスタ中心とし、Step.2に戻って次の
クラスタ中心を選ぶ。dx_C＜max{dz_k}×t(t=0.5〜1)なら
ばStep.5へ。 Step.5：すべてのx_i∈Xを、最も近いz_j∈Zのクラスタ
に分類する。

【００３５】最大距離アルゴリズムによるクラスタリン
グ結果の例を図４に示す。

【００３６】112は、セルクラスタ作成部111により作成
されたセルのクラスタ情報を保持するセルクラスタ情報
保持部である。

【００３７】113は、セル位置データ保持部103に保持さ
れたセル位置データ、およびセルクラスタ情報保持部11
2に保持されたセルクラスタ情報を参照して、レイアウ
ト目的のテーブルからセグメントを生成するレイアウト
セグメント生成部である。

【００３８】テーブルの形式を利用して情報を配置する
メリットとしては、ある配置パターンの縦横方向の繰り
返しが容易に表現できる点が挙げられる。そこで、セル
クラスタ情報をもとに配置パターンを推定して、パター
ンに適合するセルを合わせてセグメントとする。ある配
置パターンが繰り返し現れるときには、そのパターンに
適合するセル同士が意味的にまとまっていると判断でき
るからである。処理の詳細を以下に示す。

【００３９】まず、基本セル種を決定し、基本セル種に
属するセルを基本セルとする。基本セル種は、同種のセ
ルが複数あるセルの種類のうち、最もセル数の少ないセ
ル種とする。該当するセル種が複数ある場合には、より
左、上にあるセルの種類を選ぶ。

【００４０】次に、ある基本セルに隣接するセルと分類
が同じセルが他の基本セルにも同じように隣接するかを
確認する。隣接していれば、それぞれを結合し、新たな
基本セルとする。これを結合できなくなるまで繰り返
す。

【００４１】以上の処理を終えると、基本セルおよび残
りのセルをそれぞれセグメントとする。

【００４２】114は、レイアウトセグメント生成部113に
より生成されたレイアウトセグメントを保持するレイア
ウトセグメント保持部である。表セグメント保持部110
に保持された表セグメント、およびレイアウトセグメン
ト保持部114に保持されたレイアウトセグメントが結果
として得られるセグメントである。

【００４３】図２は、本発明の実施形態に係る文書分割
装置のハードウェア構成を示す図である。

【００４４】同図において、CPU201は、ROM202に保持さ
れているプログラムに従って処理を行なう。ROM202は、
後述する制御手順を実現するプログラムを保持する。RA
M 203は、セル位置データ保持部103、セルベクトル保持
部104、テーブルタイプ保持部106、カット方向保持部10
8、セルクラスタ情報保持部112と上記プログラムの動作
に必要な記憶領域とを提供する。

【００４５】ディスク装置204は、HTMLテーブル保持部1
01、表セグメント保持部110、レイアウトセグメント保
持部114を実現する。バス205は、上記の各構成を接続
し、各構成間におけるデータの授受を可能とする。

【００４６】次に、本実施形態の処理動作を説明する。
図３は本実施形態の文書分割装置の動作手順を示すフロ
ーチャートである。

【００４７】ステップS301では、HTMLテーブル保持部10
1に保持されているテーブルを解析して、各セルの位置
関係を示すセル位置データと、各セルの特徴を表現した
セルベクトルを生成する。そしてステップS302に移る。

【００４８】ステップS302では、セル位置データ保持部
103に保持されたセル位置データ、およびセルベクトル
保持部104に保持されたセルベクトルを参照して、テー
ブルタイプを決定する。そしてステップS303に移る。

【００４９】ステップS303では、テーブルタイプ保持部
106に保持されたテーブルタイプを参照して、処理対象
のテーブルが表を記述したテーブルか否かを判定して、
表を記述したテーブルの場合はステップS304に移る。表
を記述したテーブルでない場合はステップS306に移る。

【００５０】ステップS304では、セル位置データ保持部
103に保持されたセル位置データ、およびセルベクトル
保持部104に保持されたセルベクトルを参照して、表を
記述したテーブルにおいて各データは行または列のどち
らで表現されているかを判別し、テーブルの分割方向を
決める。そしてステップS305に移る。

【００５１】ステップS305では、テーブルタイプ保持部
106に保持されたテーブルタイプ、およびカット方向保
持部108に保持されたカット方向を参照して、表を記述
したテーブルからセグメントを生成する。そして動作を
終了する。

【００５２】ステップS306では、セルベクトル保持部10
4に保持されたセルベクトルを参照して、レイアウト目
的のテーブルにおいて各セルをクラスタリングする。そ
してステップS307に移る。

【００５３】ステップS307では、セル位置データ保持部
103に保持されたセル位置データ、およびセルクラスタ
情報保持部112に保持されたセルクラスタ情報を参照し
て、レイアウト目的のテーブルからセグメントを生成す
る。そして動作を終了する。

【００５４】以上に述べたように、処理対象となってい
るテーブルを解析して、表を記述したテーブルである
か、レイアウト目的のテーブルであるかを判別し、それ
ぞれに応じた処理によってセグメントを生成すること
で、HTML文書中のテーブルを内容ごとに分割する文書分
割装置を実現することができる。

【００５５】〔変形例〕上記実施形態では、セルのクラ
スタリングに最大距離アルゴリズムを利用するように説
明しているが、これに限定されるものではなく、他のア
ルゴリズムを用いてクラスタリングを行なってもよい。

【００５６】上記実施形態で示したセルベクトルの各成
分の定義は一例であり、他の定義によってセルの特徴を
ベクトル表現してもよい。

【００５７】上記実施形態で示したカット方向を決定す
るスコアの定義は一例であり、他の定義によってカット
方向を決定してもよい。

【００５８】上記実施形態では、テーブルタイプを決定
するための項目名の行(または列)の判定に、セルの高さ
と幅、タグの種類(TH or TD)、背景色を用いているが、
これに限定されるものではなく、他の属性を用いて判定
してもよい。

【００５９】上記実施形態においては、セル位置データ
保持部103、セルベクトル保持部104、テーブルタイプ保
持部106、カット方向保持部108、セルクラスタ情報保持
部112をRAMで、HTMLテーブル保持部101、表セグメント
保持部110、レイアウトセグメント保持部114をディスク
装置で実現する場合について説明したが、これに限定さ
れるものではなく、任意の記憶媒体を用いて実現しても
よい。

【００６０】上記実施形態では、HTMLのテーブルを分割
する場合について説明したが、テーブルの内容が区別で
きれば、他の形式であってもよい。

【００６１】上記実施形態においては、各部を同一の計
算機上で構成する場合について説明したが、これに限定
されるものではなく、ネットワーク上に分散した計算機
や処理装置などに分かれて各部を構成してもよい。

【００６２】上記実施形態においては、プログラムをRO
Mに保持する場合について説明したが、これに限定され
るものではなく、任意の記憶媒体を用いて実現してもよ
い。また、同様の動作をする回路で実現してもよい。

【００６３】〔実施形態２〕上記実施形態では、HTMLの
テーブルを分割するだけの装置として説明しているが、
これに限定されるものではない。例えば、HTML文書全体
を分割する装置であってもよい。図５は、この場合の基
本的な機能構成を示すブロック図である。

【００６４】図５において、501は、処理対象であるHTM
L文書を保持するHTML文書保持部である。502は、HTML文
書保持部501に保持されているHTML文書をセグメントに
分割する一般セグメント生成部である。503は、一般セ
グメント生成部502により生成されたテーブル以外のセ
グメントを保持する一般セグメント保持部である。HTML
テーブル保持部504は、一般セグメント生成部502により
生成されたテーブルのセグメントを保持する。以下は、
図1と同様である。

【００６５】図5では、一般セグメント保持部503に保持
された一般セグメント、表セグメント保持部513に保持
された表セグメント、およびレイアウトセグメント保持
部517に保持されたレイアウトセグメントが結果として
得られるセグメントである。

【００６６】〔実施形態３〕上記実施形態では、表を記
述しているテーブルとレイアウト目的のテーブルの両方
をセグメントに分割しているが、これに限定されるもの
ではない。例えば、表を記述しているテーブルのみを分
割してもよい。図６はこの場合の基本的な機能構成を示
すブロック図である。

【００６７】図６において、テーブルセグメント生成部
601は、テーブルタイプ判定部105により処理開始を指示
された場合に、HTMLテーブル保持部101に保持されたHTM
Lテーブルをテーブルセグメントとして生成する。

【００６８】テーブルセグメント保持部602は、テーブ
ルセグメント生成部611により生成されたテーブルセグ
メントを保持する。他の構成は、図1と同様である。

【００６９】図6では、表セグメント保持部110に保持さ
れた表セグメント、およびテーブルセグメント保持部60
2に保持されたテーブルセグメントが結果として得られ
るセグメントである。

【００７０】〔実施形態４〕また、上記実施形態では、
表を記述しているテーブルとレイアウト目的のテーブル
の両方をセグメントに分割しているが、レイアウト目的
のテーブルのみを分割してもよい。図７はこの場合の基
本的な機能構成を示すブロック図である。

【００７１】図７において、テーブルセグメント生成部
701は、テーブルタイプ判定部705により処理開始を指示
された場合に、HTMLテーブル保持部701に保持されたHTM
Lテーブルをテーブルセグメントとして生成する。テー
ブルセグメント保持部702は、テーブルセグメント生成
部706により生成されたテーブルセグメントを保持す
る。他の構成は、図1と同様である。

【００７２】図7では、テーブルセグメント保持部702に
保持されたテーブルセグメント、およびレイアウトセグ
メント保持部114に保持されたレイアウトセグメント
が、結果として得られるセグメントである。

【００７３】なお、上記実施形態では、HTML文書を分割
する装置として説明しているが、これに限定されるもの
ではなく、検索装置と組み合わせて、生成されたセグメ
ント単位で検索を行なうことができるセグメント検索装
置として実現してもよい。

【００７４】〔実施形態５〕これまでの実施形態では、
表を記述したテーブルであるかどうかを判定するのに、
テーブルのシンタックスのみから判定を行っている。

【００７５】ところが、HTML文書のテーブルには、テー
ブルの項目をTHタグや項目名として識別可能な強調文字
などで記述していないものもあるため、表を記述したテ
ーブルであるにもかかわらず、レイアウトとして判定さ
れてしまうことがある。そのような場合には、表を記述
したテーブルであるかどうかを判定するのに、シンタッ
クスからのアプローチだけでは限界がある。

【００７６】ここで、図８を例にとると、セル間の意味
が類似しているため、各セルは1つの項目に対する要素
を構成していることが分かる。このようにHTML文書のテ
ーブルには、表を記述したテーブルであるとセマンティ
ックスにより判定可能なものもある。

【００７７】そこで、本実施形態では、表を記述したテ
ーブルであるかどうかを判別するのに、セマンティック
スによるアプローチで表を記述したテーブルであるかど
うかを判定する。

【００７８】図9は、本実施形態に係る装置の構成を示
すブロック図である。

【００７９】テーブル解析部102では、HTMLテーブル保
持部101に保持されているテーブルを解析して、各セル
の位置関係を示すセル位置データと、各セルの特徴を表
現したセルベクトルと、各セルのデータを生成する。セ
ルデータ保持部901では、テーブル解析部102により生成
されたセルデータを保持する。他の構成は、図1と同様
である。

【００８０】本実施形態の処理手順は、実施形態１と同
様に、図3に示すフローチャートに従う。但し、詳細に
おいて実施形態１と異なるので、その点について説明す
る。

【００８１】ステップS301では、HTMLテーブル保持部10
1に保持されているテーブルを解析して、各セルの位置
関係を示すセル位置データと、各セルの特徴を表現した
セルベクトルと、各セルのデータとを生成する。そして
ステップS302に移る。

【００８２】ステップS302では、セル位置データ保持部
103に保持されたセル位置データ、セルベクトル保持部1
04に保持されたセルベクトル、およびセルデータ保持部
901に保持されたセルデータのいずれかを参照してテー
ブルタイプを決定する。そしてステップS303に移る。

【００８３】ここで、テーブルタイプの決定には、シソ
ーラスに基づくテーブルタイプ決定、文字の類似度に基
づくテーブルタイプ決定、シンタックスに基づくテーブ
ルタイプ決定、文字の一致度に基づくテーブルタイプ決
定がある。テーブルタイプ決定の動作については、後述
する各実施形態の中で説明する。ステップS303以下は実
施形態１と同様である。

【００８４】本実施形態は、テーブル判定部105にシソ
ーラス・類似度判定部1001、シソーラス辞書1002を含ん
でいる。図10を用いて動作の説明を行う。

【００８５】ここでシソーラスとは、語彙の上下関係を
意味する単語である。単語にはより抽象的な単語である
上位語、言い換えても意味の変わらない単語である同義
語、意味的に近い単語である類義語、より具体的な単語
である下位語などがある。たとえば、アサガオという単
語には、上位語として花、類義語としてスミレやヒルガ
オやホウセンカなどの単語が存在する。花という単語に
は、下位語としてスミレやヒルガオやホウセンカなどの
単語が存在することになる。

【００８６】シソーラス・類似度判定部1001は、セル位
置データ保持部103に保持されたセル位置データ、およ
びセルデータ保持部115に保持されたセルデータを参照
して、シソーラス辞書1002に記述されたシソーラス・類
似度に基づいてテーブルタイプを判定し、そのテーブル
タイプをテーブルタイプ106に保持する。

【００８７】ここでシソーラス・類似度に基づくテーブ
ルタイプ判定の説明をM行N列のテーブルを想定して行
う。

【００８８】文字列s1とs2の2つの文字列に対してシソ
ーラスに基づいてスコアをはかる関数を、f(s1,s2)と表
記することにする。ここで、文字列s1に対して文字列s2
が同義語あるいは類義語であるときにf(s1,s2)の値が最
も高くなる。文字列s1に対して文字列s2が上位語あるい
は下位語方向に階層が深くなるにしたがってf(s1,s2)の
値は低くなるものとする。

【００８９】m行n列のセルの文字列をSm,nとすると、1
列目の各セルに対するシソーラスの平均スコアは、

【００９０】

【外２】と表せる。同様にして1行目の各セルに対するシソーラ
スの平均スコアは、

【００９１】

【外３】と表せる。1行目、もしくは1列目の各セルに対するシソ
ーラスの平均スコアが閾値を超えたとき表を記述したテ
ーブルと判定し、閾値を超えなかったときレイアウトを
記述したテーブルと判定することで処理対象のテーブル
のテーブルタイプを判定することが出来る。

【００９２】文字列s1とs2の2つの文字列に対して文字
の類似度に基づいてスコアをはかる手法には、あいまい
検索と呼ばれる手法などがある。

【００９３】文字列s1とs2の2つの文字列に対して文字
の類似度に基づいてスコアをはかる関数を、g(s1,s2)と
表記することにする。文字の類似度が高い場合にg(s1,s
2)の値が高く、類似度が低い場合にg(s1,s2)の値が低く
なるものとすると、あいまい検索を使って、上記のシソ
ーラスに基づいてスコアをはかる方法と同様に、1行
目、もしくは1列目の各セルに対する文字の類似度の平
均スコアが閾値を超えたとき表を記述したテーブルと判
定し、閾値を超えなかったときレイアウトを記述したテ
ーブルと判定することで処理対象のテーブルのテーブル
タイプを判定することが出来る。

【００９４】本実施形態では、処理対象のテーブルに対
して、まずシソーラスに基づくテーブル判別を行い、そ
のテーブルが表を記述したテーブルの場合は終了し、表
を記述したテーブルでない場合、処理対象のテーブルに
対して、文字の類似度に基づくテーブル判定をするよう
にする。

【００９５】このようにして、処理対象のテーブルをシ
ソーラス・類似度に基づいてテーブルタイプを判定する
ことが出来る。

【００９６】ここでステップS302のテーブル判定の詳細
について図11を用いて説明する。

【００９７】ステップS1101では、セル位置データ保持
部103のセル位置データ、およびセルデータ保持部901の
セルデータから、シソーラスに基づいて処理対象のテー
ブルのタイプを判定し、そのテーブルが表を記述したテ
ーブルの場合は終了し、表を記述したテーブルでない場
合ステップS1102へ移る。

【００９８】ステップS1102では、セル位置データおよ
びセルデータから、処理対象のテーブルのタイプを文字
の類似度に基づいて判定する。そして終了する。

【００９９】ここで、図８の花の育て方に関するページ
のテーブルを例に説明する。まず、1行目および1列目の
各セルに対するシソーラスの平均スコアを測定する。す
ると、1列目にはスミレ、アサガオ、ホウセンカの単語
が並んでいる。これらの単語は、花に関する単語を表し
ている。したがって、1列目の各セルに対するシソーラ
スの平均スコアは大きくなり、表を記述したテーブルで
あると判定出来る。

【０１００】次に、図１２の製品カタログのページに関
するページのテーブルを例に説明する。まず、1行目お
よび1列目の各セルに対する文字の類似度の平均スコア
を測定する。すると、1列目にはAAA0001、AAA0002、AAA
1001の単語が並んでいる。これらの単語は、文字が類似
している。したがって、1列目の各セルに対する文字の
類似度の平均スコアは大きくなり、表を記述したテーブ
ルであると判定出来る。

【０１０１】以上に述べたように、処理対象となってい
るテーブルをセマンティックスに基づいて解析して、表
を記述したテーブルであるか、レイアウト目的のテーブ
ルであるかを判別し、それぞれに応じた処理によってセ
グメントを生成することで、HTML文書中のテーブルを内
容ごとに分割することが出来る。

【０１０２】〔実施形態６〕本実施形態では、テーブル
判定部105に部分文字列抽出部1301と文字列比較部1302
を含んでいる。図13を用いて動作の説明を行う。

【０１０３】部分文字列抽出部1301では、セル位置デー
タ保持部103に保持されたセル位置データ、およびセル
データ保持部901に保持されたセルデータを参照して、
各セルデータの部分文字列を抽出する。ここで、部分文
字列の抽出は、形態素解析などの既存の手法を用いて行
う。

【０１０４】文字列比較部1302では、部分文字列抽出部
1301で抽出された各セルの部分文字列の比較を行い、多
くのセルで部分文字列が一致するかどうかでテーブルタ
イプを判定し、判定されたテーブルタイプをテーブルタ
イプ保持部106に保持する。

【０１０５】ここで文字列比較に基づくテーブルタイプ
判定の説明を、M行N列のテーブルを想定して行う。

【０１０６】文字列s1とs2の2つの文字列に対して文字
列が一致度をはかる関数を、h(s1,s2)と表記することに
する。h(s1,s2)≠0のとき2つの文字列が一致していない
とする。h(s1,s2)=0のとき2つの文字列が一致している
とする。

【０１０７】m行n列のセルの文字列をS_m,nとし、S_m,nを
部分文字列に分割したとき先頭からk番目の部分文字列
をS^k _m,nとすると、1列目の各セルにおける最後の部分文
字列に対する文字列の一致度の平均は、

【０１０８】

【外４】と表せる。S^m _i,1，Sⁿ _j,1はそれぞれの文字列における最
後の部分文字列を表す。同様にして1行目の各セルに対
する文字列の一致度の平均は、

【０１０９】

【外５】と表せる。1行目、もしくは1列目の各セルに対する文字
列が一致度の平均が閾値より小さいとき表を記述したテ
ーブルと判定し、閾値より小さくないときレイアウトを
記述したテーブルと判定することで処理対象のテーブル
のテーブルタイプを判定することが出来る。これらの処
理後、判定されたテーブルタイプをテーブルタイプ保持
部106に保持する。このようにして、文字列比較に基づ
いてテーブルタイプを判定することが出来る。

【０１１０】ここでステップS302のテーブル判定の詳細
について図１４を用いて説明する。

【０１１１】ステップS1401では、セル位置データおよ
びセルベクトルから部分文字列を抽出して、ステップS1
402に移る。

【０１１２】ステップS1402では、各セルの部分文字列
の比較を行い、多くのセルで部分文字列が一致するかど
うかでテーブルタイプを判定する。そして終了する。

【０１１３】ここで、図15の病院に関するページのテー
ブルを例に説明する。

【０１１４】まず、1行目および1列目の各セルを、形態
素解析を使って部分文字列に分割する。1列目の各セル
を部分文字列に分割すると、○○−病院、××−病院、
△△−病院となる。各セルの最後の部分文字列を文字列
比較すると、「病院」が一致するため、1列目の各セル
に対する文字列一致度の平均は小さくなり、表を記述し
たテーブルであると判定出来る。

【０１１５】以上に述べたように、処理対象となってい
るテーブルをセルの部分文字列の一致度を解析して、表
を記述したテーブルであるか、レイアウト目的のテーブ
ルであるかを判別し、それぞれに応じた処理によってセ
グメントを生成することで、HTML文書中のテーブルを内
容ごとに分割することが出来る。

【０１１６】〔実施形態7〕本実施形態では、テーブル
判定部105に部分文字列抽出部1601とシソーラス・類似度
判定部1602、シソーラス辞書1603を含んでいる。図16を
用いて動作の説明を行う。

【０１１７】部分文字列抽出部1601では、セル位置デー
タ保持部103に保持されたセル位置データ、およびセル
データ保持部115に保持されたセルデータを参照して、
部分文字列を抽出する。

【０１１８】シソーラス・類似度判定部1602では、部分
文字列抽出部1601で抽出された各セルの部分文字列に対
して、シソーラス辞書1603のシソーラス・類似度に基づ
きテーブルのタイプを判定し、判定されたテーブルタイ
プをテーブルタイプ保持部106に保持する。

【０１１９】ここでステップS302のテーブル判定の詳細
について図17を用いて説明する。

【０１２０】ステップS1701では、セル位置データおよ
びセルベクトルから部分文字列を抽出して、ステップS5
302に移る。

【０１２１】ステップS1702では、各セルの部分文字列
に対してシソーラスに基づきテーブル判定する。その結
果、ステップS1703では、表を記述したテーブルであれ
ば終了し、そうでなければステップS1704へ移る。

【０１２２】ステップS1704では、各セルの部分文字列
に対して文字の類似度に基づきテーブル判定する。そし
て終了する。

【０１２３】以上述べたように、処理対象となっている
テーブルをセルの部分文字列に対してシソーラス・類似
度に基づきテーブル判定し、表を記述したテーブルであ
るか、レイアウト目的のテーブルであるかを判別し、そ
れぞれに応じた処理によってセグメントを生成すること
で、HTML文書中のテーブルを内容ごとに分割することが
出来る。

【０１２４】〔実施形態8〕本実施形態では、テーブル
判定部105にシンタックス判定部1801とシソーラス・類似
度判定部1802とシソーラス辞書1803を含んでいる。図18
を用いて動作の説明を行う。

【０１２５】シンタックス判定部1801は、実施形態１の
テーブルタイプ判定部105と同様の処理を行なう。シン
タックス判定部1801あるいはシソーラス・類似度判定部1
802での処理後、判定されたテーブルタイプをテーブル
タイプ保持部106に保持する。

【０１２６】ここで、ステップS302のテーブル判定の詳
細について図19を用いて説明する。

【０１２７】ステップS1901では、セル位置データおよ
びセルベクトルからシンタックスに基づきテーブル判定
する。その結果、ステップS1902では、表を記述したテ
ーブルであれば終了し、そうでなければステップS1903
へ移る。

【０１２８】ステップS1903では、セル位置データおよ
びセルベクトルからシソーラスに基づきテーブルを判定
する。その結果、ステップS1904では、表を記述したテ
ーブルであれば終了し、そうでなければステップS1905
へ移る。

【０１２９】ステップS1905では、セル位置データおよ
びセルベクトルから文字の類似度に基づきテーブルを判
定する。そして終了する。

【０１３０】以上述べたように、処理対象となっている
テーブルをシンタックスおよびセマンティックスに基づ
いて解析して、表を記述したテーブルであるか、レイア
ウト目的のテーブルであるかを判別し、それぞれに応じ
た処理によってセグメントを生成することで、HTML文書
中のテーブルを内容ごとに分割することが出来る。

【０１３１】〔実施形態9〕本実施形態では、テーブル
判定部105にシンタックス判定部2001と部分文字列抽出
部2002と文字列比較部2003を含んでいる。図20を用いて
動作の説明を行う。

【０１３２】シンタックス判定部2001は、実施形態１の
テーブルタイプ判定部105と同様の処理を行なう。部分
文字列抽出部2002と文字列比較部2003は、実施形態6の
部分文字列抽出部1301と文字列比較部1302と同様の処理
を行なう。シンタックス判定部2001あるいは文字列比較
部2003での処理後、判定されたテーブルタイプをテーブ
ルタイプ保持部106に保持する。

【０１３３】ここでステップS302のテーブル判定の詳細
について図21を用いて説明する。

【０１３４】ステップS2101では、セル位置データおよ
びセルベクトルからシンタックスに基づきテーブル判定
する。その結果、表を記述したテーブルであれば終了
し、そうでなければステップS2102へ移る。

【０１３５】ステップS2102では、セル位置データおよ
びセルベクトルから部分文字列を抽出し、ステップS210
3では、各セルの部分文字列の比較を行い、多くのセル
で部分文字列が一致するかどうかでテーブルタイプを判
定する。そして終了する。

【０１３６】以上述べたように、処理対象となっている
テーブルをシンタックスおよびセルの部分文字列に対し
て一致度を解析して、表を記述したテーブルであるか、
レイアウト目的のテーブルであるかを判別し、それぞれ
に応じた処理によってセグメントを生成することで、HT
ML文書中のテーブルを内容ごとに分割することが出来
る。

【０１３７】〔実施形態10〕本実施形態では、テーブル
判定部105にシンタックス判定部と部分文字列抽出部と
シソーラス・類似度判定部とシソーラス辞書を含んでい
る。図22を用いて動作の説明を行う。

【０１３８】シンタックス判定部2201は、実施形態１の
テーブルタイプ判定部105と同様の処理を行なう。部分
文字列抽出部2202とシソーラス・類似度判定部2203は、
部分文字列抽出部1601とシソーラス・類似度判定部1602
と同様の処理を行なう。シンタックス判定部あるいはシ
ソーラス・類似度判定部での処理後、判定されたテーブ
ルタイプをテーブルタイプ保持部106に保持する。

【０１３９】ここでステップS302のテーブル判定の詳細
について図23を用いて説明する。

【０１４０】ステップS2301では、セル位置データおよ
びセルベクトルからシンタックスに基づきテーブル判定
する。その結果、ステップS2302では、表を記述したテ
ーブルであれば終了し、そうでなければステップS2303
へ移る。

【０１４１】ステップS2303では、セル位置データおよ
びセルベクトルから部分文字列を抽出し、ステップS230
4で、各セルの部分文字列に対してシソーラスに基づき
テーブル判定する。その結果、ステップS2305では、表
を記述したテーブルであれば終了し、そうでなければス
テップS2306へ移る。ステップS2304では、各セルの部分
文字列に対して文字の類似度に基づきテーブル判定す
る。そして終了する。

【０１４２】以上に述べたように、処理対象となってい
るテーブルをシンタックスに基づいて解析し、またセル
の部分文字列に対してシソーラス・類似度に基づいて解
析して、表を記述したテーブルであるか、レイアウト目
的のテーブルであるかを判別し、それぞれに応じた処理
によってセグメントを生成することで、HTML文書中のテ
ーブルを内容ごとに分割することが出来る。

【０１４３】以上説明した実施形態では、表を記述した
テーブルであるかどうかを判別するのに、シンタックス
によるテーブル判別に加え、セマンティックスによるテ
ーブル判別を行なうことで、多くのテーブルに対して表
を記述したテーブルであると判別することが可能にな
る。

【０１４４】〔実施形態11〕ここで、テーブルに関する
名称について簡単に説明する。

【０１４５】レコードは、ある一つの実体を表現した情
報であり、同種の実体を表現したレコードを集めた集合
がレコード集合である。当然、レコード集合中の各レコ
ードの形式は同一である。レコードは、実体の各属性を
表現したデータであるフィールドから構成される。例え
ば、図24において、「山田太郎:横浜市:045-000-0000」
は、三つのフィールドから構成されるレコードである。
「山田花子:川崎市:044-111-1111」も、上記レコードと
同じ形式で同様に人物を表現したレコードである。この
二つのレコードから構成される集合は、レコード集合で
ある。

【０１４６】フィールドを識別するのに、第1フィール
ド、第2フィールドでは、分かりづらいので、名称を付
与することが多い。フィールドに付与された名称をフィ
ールド名と呼ぶ。また、各レコードにおけるフィールド
の値をフィールド値と呼ぶ。例えば、先のレコードで
は、第1フィールドのフィールド名を「名前」、以下、
第2フィールドを「住所」、第3フィールドを「電話」と
する。第1のレコードでは、フィールド名「名前」のフ
ィールド値が「山田太郎」、フィールド名「住所」のフ
ィールド値が「横浜市」となる。

【０１４７】レコード集合を実際に表現したデータが図
24である。HTML文書の場合、表はテーブルとして具体的
に記述される（テーブルとは、TABLEタグで記述される
データを指す）。図24は、レコード集合をテーブルで記
述した表の例である。

【０１４８】この例では、テーブルの各行が一つのレコ
ードを記述しているが、列がレコードを記述する場合も
ある。しかし今後の議論においては、行と列を入れ替え
ても、すなわちテーブルの対角線に対して対称変換して
も差し支えない。そこで、以下レコードは行方向で記述
されるとして扱う。列がレコードを表現している場合
は、行と列を読み替えれば同等である。図のテーブルで
は、第1行が各フィールドのフィールド名を記述してい
る。このような行をフィールド名記述行と呼ぶ。第2行
と第3行は、それぞれ一つのレコードを記述している。
このような行をレコード記述行と呼ぶ。

【０１４９】これまでの実施形態では、表を記述したテ
ーブルであるかどうかを判定するのに、M行N列に漏れが
なく規則正しく記述されたテーブルを前提に判定を行っ
ている。しかしながら、HTML文書のテーブルには、1つ
のテーブル中に複数の表が含まれたり、レコードが複数
の表にまたがるテーブルがある。また、隣り合った情報
が同じである場合には、その情報をまとめて1つの情報
で表記するマルチロー、マルチカラムのテーブルもあ
る。これらのテーブルは単純にテーブル判定を行うこと
ができない。

【０１５０】このようなテーブルに対しては、テーブル
の構造やテーブルを構成する情報記述の規則性などを解
析することにより、テーブルをM行N列に規則正しく再構
成することで正しくテーブル分割が行えるようになる。

【０１５１】図25は、本発明の一実施例に係る装置の構
成を示すブロック図である。

【０１５２】HTMLテーブル再構成部2501は、HTMLテーブ
ル保持部101で保持しているテーブルに対して、テーブ
ルの構造やテーブルを構成する情報記述の規則性などを
解析することで、テーブルをM行N列に漏れがなく規則正
しく再構成する。

【０１５３】HTMLテーブル再構成データ保持部2502は、
116のHTMLテーブル再構成部で再構成されたHTMLテーブ
ルのデータを保持する。

【０１５４】テーブル解析部102は、HTMLテーブル再構
成データ保持部2502に保持されているテーブルを解析し
て、各セルの位置関係を示すセル位置データと、各セル
の特徴を表現したセルベクトルと、各セルのデータを生
成する。その他の構成は、図1と同様である。

【０１５５】次に、図26に示すフローチャートを参照し
て、本実施形態の文書分割装置の動作を説明する。

【０１５６】ステップS2600では、HTMLテーブル保持部1
01に保持されているテーブルに対して、テーブルの構造
やテーブルを構成する情報記述の規則性などを解析する
ことにより、テーブルをM行N列に漏れがなく規則正しく
再構成する。そしてステップS2601へ移る。

【０１５７】ここで、テーブル再構成には、付加データ
除去、マルチロー・マルチカラムテーブル処理、複合テ
ーブル処理によるテーブル再構成がある。本実施形態で
は、付加データ除去によりテーブル再構成を行なう。マ
ルチロー・マルチカラムテーブル処理、複合テーブル処
理によるテーブル再構成の動作については他の実施形態
で説明する。ステップS2601―2607は、図3のステップS3
01―307と同様である。

【０１５８】本実施例では、HTMLテーブル再構成部2501
が付加データ除去を行なう。ここでは、HTMLテーブル保
持部101に保持されたテーブルデータを参照して、テー
ブルの中の表に付加された不要なデータを除去する。

【０１５９】次にステップS2600のHTMLテーブル再構成
の詳細について図27を用いて説明する。

【０１６０】ステップS2701では、THタグの記述された
フィールド名記述行の範囲を判定し、ステップS2702で
は、背景色を表記したタグの記述されたフィールド名記
述行の範囲を判定し、ステップS2703では、強調文字の
記述されたフィールド名記述行の範囲を調査し、ステッ
プS2704へ移る。

【０１６１】ステップS2704では、ステップS2701―2703
で調査したフィールド名記述行の範囲を基にして、フィ
ールド名記述行の各フィールド名とフィールド名記述行
の表記の方向と垂直の方向にあるフィールドとの意味の
類似度の計算を行う。類似度のスコアが高いフィールド
はフィールド名に対する表記であるので、類似度のスコ
アの高い範囲を判定することで表の範囲を判定する。ス
テップS2705では、ステップS2704と同様の手順で文字列
の類似度の計算を行って表の範囲を判定する。

【０１６２】ステップS2706では、ステップS2704―2705
で調査した表の範囲を基にして、表以外の余分なデータ
を取り除く。

【０１６３】ここでサンプルを用いて付加データ除去の
動作を説明する。図28は、花の育て方のページであり、
1及び4行目に表以外のデータが付加している。

【０１６４】まず、ステップS2701― 2703により、フィ
ールド名記述行がある行を特定する。図28では、2行目
に強調文字によってフィールド名記述行があるので、ス
テップS2703の処理によって2行目がフィールド名記述行
であると判断される。

【０１６５】次に、ステップS2704―2705で表の範囲、
つまりフィールド名に関するフィールド値がどの範囲で
あるかをシソーラスの類似度、もしくは文字列の類似度
によって特定する。この図では、1列目の3から5行目に
かけて「スミレ」「アサガオ」「ホウセンカ」とフィー
ルド名「花の名前」に関するフィールド値が記述されて
いるので、ステップS2704の処理によって、表が2行目か
ら5行目にかけての範囲であることが特定される。

【０１６６】最後にステップS2706の処理により、表の
範囲外の付加データを除去することで表を取り出すこと
が出来る。

【０１６７】以上述べたように、処理対象となっている
テーブルに対して、テーブルの構造やテーブルを構成す
る情報記述の規則性などを解析することにより、テーブ
ルをM行N列に規則正しく再構成することで正しくテーブ
ル分割することが出来る。

【０１６８】〔実施形態12〕本実施形態では、HTMLテー
ブル再構成部2501がマルチロー・マルチカラムテーブル
処理を行う。ここでは、HTMLテーブル保持部101に保持
されたテーブルデータを参照して、テーブルの構造を解
析することにより、テーブルをM行N列に漏れがなく規則
正しく再構成する。

【０１６９】次に、ステップS2600のHTMLテーブル再構
成の詳細について図２９、３０を用いて説明する。

【０１７０】マルチロー、マルチカラム表を類似した表
ごとに分類すると、1．フィールド名記述行のフィール
ドの構造とレコード部分のフィールドの構造を対応付け
ることで、レコードを取り出せるもの、2．フィールド
名記述行の構造をレコードのフィールド構造に合わせて
レコードを取り出せるもの、3．マルチロー・マルチカ
ラムになっているフィールド部分を読み替えることでレ
コードを取り出せるものとなる。１については図29が、
2、3については図30が処理の流れになっている。

【０１７１】ここで、マルチロー、マルチカラムになっ
ている表のデータを扱う際には、マルチローもしくはマ
ルチカラムのフィールドを最小単位のフィールドに分割
して保持する。その際、マルチロー、マルチカラムとな
っているフィールドのデータは、分割する段階で各々の
フィールドに同じデータを保持するようにしている。例
えば図４１の(A)のようなマルチローマルチカラムで
は、最小単位のフィールドに分割してデータを保存す
る。よって、図４１の(B)のように4行4列の表としてす
る。

【０１７２】1では、フィールド名記述行のフィールド
の構造とレコード部分のフィールドの構造を対応付ける
ことで、レコードを取り出す。

【０１７３】まず、フィールド名記述行のフィールドの
構造を解析する処理を図２９を用いて説明する。

【０１７４】ステップS2901では、フィールドが存在す
ればステップS2902へ移る。存在しなければ、マルチロ
ー、マルチカラムの処理を終了する。

【０１７５】ステップS2902では、1行分のデータを抽出
して、ステップS2903では、フィールド名記述行の範囲
を判定し、ステップS2904へ移る。フィールド名記述行
の範囲は、現在保持している1行の各フィールドと1行前
の各フィールドと異なる行を調べることで判定できる。

【０１７６】例えば、図４１の(C)のようなマルチロー
・マルチカラムでは、最小単位のフィールドに分割して
データが保存されているので、図４１の(D)のように4行
4列の表となっている。ここでは、1行目と2行目のフィ
ールド間で同じデータを調べると、1行目と4行目とで一
致しているので、1行目と2行目はフィールド名記述行の
境界ではない。しかし、2行目と3行目のフィールド間で
同じデータを調べると、どのフィールドも一致していな
いので、2行目と3行目がフィールド名記述行の境界とな
り、フィールド名記述行の構造を把握することができ
る。

【０１７７】ステップS2904では、フィールド名記述行
の構造を把握できればへ移る。把握できなければ、ス
テップS2905で、1行分のデータを保持し、ステップS290
6で、現時点で調べている行までで、フィールド名記述
行のフィールドがどのような構造をしているのかを調査
し、ステップS2901へ戻る。

【０１７８】次に、解析したフィールド名記述行のフィ
ールドの構造を基にレコードを取り出す処理を説明す
る。ここでは、図４１の(E)のようなフィールド名記述
行のフィールドの構造とレコードのフィールドの構造が
一致する表のレコードを取り出すことができる。また、
フィールドは1つ目のレコードのフィールドから開始す
る。

【０１７９】ステップS2907では、フィールドが存在す
ればステップS2908へ移る。存在しなければ、S2910へ移
る。ただし、フィールドが1つも存在しなければ、マル
チロー、マルチカラムの処理を終了する。

【０１８０】ステップS2908では、1レコード分のデータ
を抽出して、ステップS2909で、フィールド名記述行の
フィールドの構造と1レコードの構造が一致すればステ
ップS2907へ戻る。一致しなければへ移る。

【０１８１】ステップS2910では、フィールド名記述行
のフィールドの構造を基に、フィールド情報の再構成を
行う。

【０１８２】次に、解析したフィールド名記述行のフィ
ールドの構造を基にレコードを取り出す処理を図２９を
用いて更に説明する。ここでは、図４１の(F)のような
フィールド値のフィールドの構造によって対応するフィ
ールド名記述行が異なる表のレコードを取り出すことが
できる。この表は、フィールド名記述行は複数行で構成
されている。そこで、フィールド名記述行の各行のフィ
ールドに対して、このフィールドの構造と一致するレコ
ードを表の最後の行まで走査して対応付けをすること
で、表のレコードを取り出すことができる。

【０１８３】ステップS2911では、フィールド名記述行
のフィールド名が存在すればステップS2912へ移る。存
在しなければ、S2918へ移る。ただし、フィールドが1つ
も存在しなければ、マルチロー、マルチカラムの処理を
終了する。

【０１８４】ステップS2912では、フィールド名記述行
の1行分のデータを抽出し、ステップS2913では、抽出す
る1行分のデータがフィールド名記述行の最後の行まで
達していなければ、ステップS2914に移る。達していて1
行分のデータが抽出できなければ、へ移る。

【０１８５】ステップS2914では、フィールド名記述行
以外のフィールドが存在すればステップS2915へ移る。
存在しなければ、S2911へ戻る。ただし、フィールドが1
つも存在しなければ、マルチロー、マルチカラムの処理
を終了する。

【０１８６】ステップS2915では、1行分のデータを抽出
し、ステップS2916では、フィールド名記述行の1行分の
フィールド構造とステップS2915で抽出した1行分のフィ
ールド構造が一致すればステップS2917へ移る。一致し
なければステップS2914へ戻る。

【０１８７】ステップS2917では、現時点で走査してい
る行が一致するフィールド名記述行の構造情報を保持
し、ステップS2914へ戻る。

【０１８８】ステップS2918では、ステップS2917で保持
した構造情報を基に、フィールド情報の再構成を行う。

【０１８９】2では、すべてのレコードのフィールド構
造が一致している表であるので、フィールド名記述行の
構造をレコードのフィールド構造に合わせてレコードを
取り出すことができる。また、フィールドは1つ目のレ
コードのフィールドから開始する。

【０１９０】図３０のステップS2919では、フィールド
が存在すればステップS2920へ移る。存在しなければ、S
2923へ移る。ただし、フィールドが1つも存在しなけれ
ば、マルチロー、マルチカラムの処理を終了する。

【０１９１】ステップS2920では、1行分のフィールドの
構造を調査し、ステップS2921では、1行分のデータがす
べて同じであれば複合表に帰着するのでマルチロー、マ
ルチカラムの処理を終了する。

【０１９２】すべてのレコードのフィールド構造が一致
している必要があるので、ステップS2922では、ここま
でで調査した1行分のフィールドの構造とステップS2920
で調査した1行分のフィールドの構造とが一致すればス
テップS2919へ戻る。一致しなければへ移る。

【０１９３】ステップS2929では、レコードのフィール
ドの構造を基に、フィールド名記述行の構造をレコード
のフィールド構造に合わせてフィールド情報の再構成を
行う。

【０１９４】3では、フィールド値のフィールド部分が
マルチロー、マルチカラムになっている表なので、マル
チロー、マルチカラムになっているフィールド部分を読
み替えることでレコードを取り出すことができる。ま
た、フィールドは1つ目のレコードのフィールドから開
始する。

【０１９５】ステップS2924では、フィールドが存在す
ればステップS2925へ移る。存在しなければ、マルチロ
ー、マルチカラムの処理を終了する。

【０１９６】ステップS2925では、1行分のフィールドの
構造を調査して、ステップS2926へ移る。

【０１９７】フィールド値のフィールド部分が細分化し
ているということは、このフィールドはマルチロー（ま
たはマルチカラム）になっている。そこで、ステップS2
926では、ステップS2925で1行分のフィールドの構造を
調査した結果、フィールド名より細分化しているならば
ステップS2927へ移る。そうでなければ、マルチロー、
マルチカラムの処理を終了する。

【０１９８】ステップS2927では、 S2925で調査した1行
分のフィールドの構造を基に、フィールド名記述行の構
造をレコードのフィールド構造に合わせてフィールド情
報の再構成を行う。

【０１９９】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。

【０２００】〔実施形態13〕本実施形態では、HTMLテー
ブル再構成部2501が複合表処理を行う。ここでは、HTML
テーブル保持部101に保持されたテーブルデータを参照
して、情報記述の規則性を解析することにより、テーブ
ルをM行N列に漏れがなく規則正しく再構成する。

【０２０１】複合表とは、一つのテーブルに複数の表が
含まれたり、レコードが複数の行にまたがるなど単純に
テーブル解析を行うことが出来ない表である。

【０２０２】複合表を分類すると、1．表の中でフィー
ルド名記述行を再表記しているもの、2．同じフィール
ド名が複数並んでいるもの、3．表の途中で共通するフ
ィールド名に対する異なるフィールド名とそのフィール
ド値を表記しているもの、4．表の中に複数の表のまと
まりがあるもの、5．その他になる。ここでは1~4の解析
方法について述べることにする。

【０２０３】ここでステップS2600のHTMLテーブル再構
成の詳細について図３１、３２を用いて説明する。

【０２０４】図３１の左側は、表の中でフィールド名記
述行を再表記している複合表の処理の流れである。ここ
では、フィールド名記述行のフィールド名がレコード中
に現れたときに、そのデータを取り除く処理を行う。

【０２０５】ステップS3101では、1行分のフィールド名
を保持し、ステップS3102では、フィールドが存在すれ
ばステップS3103へ移り、存在しなければへ移る。

【０２０６】ステップS3103では、1行分のフィールドを
保持し、ステップS3104では、ステップS3101とS3103の1
行分のフィールドを比較し、ステップS3105へ移る。

【０２０７】ステップS3105では、ステップS3104の比較
の結果、フィールドが一致していればステップS3105へ
移り、一致していなければステップS3106で、フィール
ド情報の再構成を行う。

【０２０８】図３１の右側は、同じフィールド名が複数
並んでいる複合表の処理の流れである。ここでは、フィ
ールド名記述行のフィールド名を複数回併記している場
合に、データの並びを修正する処理を行う。

【０２０９】ステップS3107では、フィールドが存在す
ればステップS3108へ移り、存在しなければステップS31
12へ移る。ただし、フィールドが1つも存在しない場合
には、複合表の処理を終了する。

【０２１０】ステップS3108では、フィールド名を1個保
持し、ステップS3109へ移る。このフィールド名は、フ
ィールド名記述行に同じフィールド名が表記されている
かどうかを調べるのに利用される。

【０２１１】ステップS3109では、フィールド名記述行
のフィールドをすべて保持し、ステップS3110では、フ
ィールド名記述行に同じフィールド名が存在すればステ
ップS3111へ移り、存在しなければへ移る。

【０２１２】ステップS3111では、フィールド名が規則
的に並列していればステップS3107へ戻り、並列してい
なければへ移る。

【０２１３】ステップS3112では、フィールド情報の再
構成、位置関係グラフの再構成を行う。例えば図４２の
(A)では、フィールド名「○○○」「×××」「△△
△」が2回並列している。そこで、1回目の並び（ハッチ
ングされた部分）のデータを保持し、その後に2回目の
並び（無色の部分）のデータを保持して再構成を行う。

【０２１４】図３２の左側は、表の途中で共通するフィ
ールド名に対する異なるフィールド名とそのフィールド
値を表記している複合表の処理の流れである。ここで
は、一部のフィールド名だけが変わったフィールド名記
述行が再表記され、以降のフィールドに新しいフィール
ド名記述行に対するデータが記述されている場合に、デ
ータの並びを修正する処理を行う。

【０２１５】ステップS3113では、1行分のフィールド名
を保持し、ステップS3114では、フィールドが存在すれ
ばステップS3115へ移り、存在しなければステップS3119
へ移る。ただし、フィールドが1つも存在しなければ、
複合表の処理を終了する。

【０２１６】ステップS3115では、1行分のフィールドを
保持し、ステップS3116では、ステップS3113とS3115の1
行分のフィールドを比較し、ステップS3117へ移る。

【０２１７】ステップS3117では、S3116の比較の結果、
別のフィールドが存在すればステップS3118へ移り、存
在しなければステップS3114へ戻る。

【０２１８】ステップS3119では、フィールド情報の再
構成、位置関係グラフの再構成を行う。

【０２１９】例えば図４２の(B)では、フィールド名
「○○○」「×××」「△△△」と「○○○」「□□
□」「◎◎◎」がある。そこで、フィールド名を「○○
○」「×××」「△△△」「□□□」「◎◎◎」として
これらのデータを保持して再構成を行う。

【０２２０】図３２の右側は、表の中に複数の表のまと
まりがある複合表の処理の流れである。ここでは、フィ
ールド名が共通で、1つの表の中に複数の表が記述され
ている場合に、個々の表に分割する処理を行う。

【０２２１】ステップS3120では、1行分のフィールド名
を保持し、ステップS3121では、フィールドが存在すれ
ばステップS3122へ移り、存在しなければステップS3128
へ移る。ただし、フィールドが1つも存在しなければ、
複合表の処理を終了する。

【０２２２】ステップS3122では、1行分のフィールドを
保持し、ステップS3123では、現時点までにS3122で保持
したフィールドをすべて保持し、ステップS3124へ移
る。

【０２２３】ステップS3124では、1行にわたり同じデー
タが表記されていたら、このデータは表題であるので、
新しい表を作成するためにステップS3125へ移る。表記
されていなければ、ステップS3121へ戻る。ただし、1度
目はステップS3125へ移らず、ステップS3121へ戻る。

【０２２４】ステップS3125、S3126では、新規のフィー
ルド情報オブジェクトと位置関係オブジェクトを作成
し、ステップS3127へ移り、フィールド情報の再構成を
行う。

【０２２５】例えば図４２の(C)では、共通なフィール
ド名に対して、2行目に表題1を4行目に表題2を表記して
いる。まず、1度目に表題1があったときには、データが
ないので新規の表の作成を行わない。2度目に表題2があ
ったときには、すでに表題１に関するデータを保持して
いるので、表題1に関する新規の表の作成を行う。最後
にフィールドがなくなったときには、表題2に関するデ
ータを保持しているので、表題2に関する新規の表の作
成を行う。

【０２２６】ステップS3128以降では、最後の表題の処
理が完了していないので後処理を行う。

【０２２７】まずステップS3128では、1行にわたり同じ
データが表記されていたら、新しい表を作成するために
ステップS3129へ移る。表記されていなければ、複合表
の処理を終了する。

【０２２８】ステップS3129、S3130では、新規のフィー
ルド情報オブジェクトと位置関係オブジェクトを作成
し、ステップS3131へ移り、フィールド情報の再構成を
行い、複合表の処理を終了する。

【０２２９】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。

【０２３０】〔実施形態14〕本実施形態では、HTMLテー
ブル再構成部2501が、図33に示すように、付加データ除
去部3301とマルチロー・マルチカラムテーブル処理部33
02で構成されている。

【０２３１】ここでステップS2600のHTMLテーブル再構
成の詳細について図34を用いて説明する。

【０２３２】ステップS3401では、HTMLテーブルデータ
から付加データを除去し、ステップS3402では、付加デ
ータを除去したテーブルデータを参照して、テーブルの
構造を解析することにより、テーブルをM行N列に漏れが
なく規則正しく再構成する。そして終了する。

【０２３３】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。

【０２３４】〔実施形態15〕本実施形態では、HTMLテー
ブル再構成部2501が、図35に示すように、付加データ除
去部3501と複合表処理部3502で構成されている。

【０２３５】ここでステップS2600のHTMLテーブル再構
成の詳細ついて図36を用いて説明する。

【０２３６】ステップS3601では、HTMLテーブルデータ
から付加データを除去し、ステップS3602では、付加デ
ータを除去したテーブルデータを参照して、情報記述の
規則性を解析することにより、テーブルをM行N列に漏れ
がなく規則正しく再構成する。そして終了する。

【０２３７】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。

【０２３８】〔実施形態16〕本実施形態では、HTMLテー
ブル再構成部2501が、図37に示すように、付加データ除
去部3701とマルチカラム・マルチロー処理部3702と複合
表処理部3703で構成されている。

【０２３９】ここでステップS2600のHTMLテーブル再構
成部について図38を用いて説明する。ステップS3801で
は、HTMLテーブルデータから付加データを除去し、ステ
ップS3802では、付加データを除去したテーブルデータ
を参照して、テーブルの構造を解析することにより、テ
ーブルをM行N列に漏れがなく規則正しく再構成しステッ
プS3803へ移る。

【０２４０】ステップS3803では、ステップS3802の再構
成データを参照して、情報記述の規則性を解析すること
により、テーブルをM行N列に漏れがなく規則正しく再構
成する。そして終了する。

【０２４１】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。

【０２４２】〔実施形態17〕本実施形態では、HTMLテー
ブル再構成部2501が、図３９に示すように、マルチカラ
ム・マルチロー処理部3901と複合表処理部3902で構成さ
れている。

【０２４３】ここでステップS2600のHTMLテーブル再構
成の詳細について図４０を用いて説明する。

【０２４４】ステップS4001では、付加データを除去し
たテーブルデータを参照して、テーブルの構造を解析す
ることにより、テーブルをM行N列に漏れがなく規則正し
く再構成しステップS4002へ移る。

【０２４５】ステップS4002では、ステップS4001の再構
成データを参照して、情報記述の規則性を解析すること
により、テーブルをM行N列に漏れがなく規則正しく再構
成する。そして終了する。

【０２４６】以上に述べたように、処理対象となってい
るテーブルに対して、テーブルの構造やテーブルを構成
する情報記述の規則性などを解析することにより、テー
ブルをM行N列に漏れがなく規則正しく再構成することで
テーブル判定を行うことが出来る。

【０２４７】なお、本発明は、複数の機器から構成され
るシステムに適用しても、１つの機器からなる装置に適
用してもよい。前述した実施形態の機能を実現するソフ
トウエアのプログラムコードを記録した記録媒体を、シ
ステム或いは装置に供給し、そのシステム或いは装置の
コンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格
納されたプログラムコードを読み出し実行することによ
っても、達成されることは言うまでもない。

【０２４８】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記録した記録媒体
は本発明を構成することになる。

【０２４９】プログラムコードを供給するための記録媒
体としては、例えば、フロッピー（登録商標）ディス
ク、ハードディスク、光ディスク、光磁気ディスク、Ｃ
Ｄ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリ
カード、ＲＯＭなどを用いることができる。

【０２５０】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているＯＳなどが
実際の処理の一部または全部を行ない、その処理によっ
て前述した実施形態の機能が実現される場合も含まれる
ことは言うまでもない。

【０２５１】更に、記録媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるＣＰＵなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることは言うまでもない。

【０２５２】

【発明の効果】以上説明したように、本発明によれば、
文書中のテーブルを解析して、各セルの位置関係を示す
セル位置データと、各セルの特徴を表現したセルベクト
ルとを生成し、このセル位置データおよびセルベクトル
を参照して、処理対象のテーブルが表を記述したテーブ
ルか否かを判定し、判定結果に応じた手法でセグメント
を生成することで、文書中のテーブルを内容ごとに分割
する文書分割を実現できるという効果が得られる。

【図面の簡単な説明】

【図１】実施形態１の文書分割装置の基本構成を示すブ
ロック図である。

【図２】実施形態に係る文書分割装置のハードウエア構
成を示すブロック図である。

【図３】実施形態に係る文書分割装置の動作手順を示す
フローチャートである。

【図４】最大距離アルゴリズムを説明する図である。

【図５】実施形態２の文書分割装置の基本構成を示すブ
ロック図である。

【図６】実施形態３の文書分割装置の基本構成を示すブ
ロック図である。

【図７】実施形態４の文書分割装置の基本構成を示すブ
ロック図である。

【図８】HTML文書のテーブルの例を示す図である。

【図９】実施形態５の機能構成を示すブロック図であ
る。

【図１０】実施形態５のテーブルタイプ判定部の構成を
示すブロック図である。

【図１１】実施形態５のテーブルタイプ判定処理の手順
を示すフローチャートである。

【図１２】HTML文書のテーブルの例を示す図である。

【図１３】実施形態６のテーブルタイプ判定部の構成を
示すブロック図である。

【図１４】実施形態６のテーブルタイプ判定処理の手順
を示すフローチャートである。

【図１５】HTML文書のテーブルの例を示す図である。

【図１６】実施形態７のテーブルタイプ判定部の構成を
示すブロック図である。

【図１７】実施形態７のテーブルタイプ判定処理の手順
を示すフローチャートである。

【図１８】実施形態８のテーブルタイプ判定部の構成を
示すブロック図である。

【図１９】実施形態８のテーブルタイプ判定処理の手順
を示すフローチャートである。

【図２０】実施形態９のテーブルタイプ判定部の構成を
示すブロック図である。

【図２１】実施形態９のテーブルタイプ判定処理の手順
を示すフローチャートである。

【図２２】実施形態１０のテーブルタイプ判定部の構成
を示すブロック図である。

【図２３】実施形態１０のテーブルタイプ判定処理の手
順を示すフローチャートである。

【図２４】HTML文書のテーブルの例を示す図である。

【図２５】実施形態１１に係る文書分割装置の機能構成
を示すブロック図である。

【図２６】実施形態１１における文書分割処理の手順を
示すフローチャートである。

【図２７】実施形態１１におけるHTMLテーブル再構成の
手順を示すフローチャートである。

【図２８】HTML文書のテーブルの例を示す図である。

【図２９】実施形態１２におけるHTMLテーブル再構成の
手順を示すフローチャートである。

【図３０】実施形態１２におけるHTMLテーブル再構成の
手順を示すフローチャートである。

【図３１】実施形態１３におけるHTMLテーブル再構成の
手順を示すフローチャートである。

【図３２】実施形態１３におけるHTMLテーブル再構成の
手順を示すフローチャートである。

【図３３】実施形態１４のHTMLテーブル再構成部の構成
を示すブロック図である。

【図３４】実施形態１４におけるテーブル再構成処理の
手順を示すフローチャートである。

【図３５】実施形態１５のHTMLテーブル再構成部の構成
を示すブロック図である。

【図３６】実施形態１５におけるテーブル再構成処理の
手順を示すフローチャートである。

【図３７】実施形態１６のHTMLテーブル再構成部の構成
を示すブロック図である。

【図３８】実施形態１６におけるテーブル再構成処理の
手順を示すフローチャートである。

【図３９】実施形態１７のHTMLテーブル再構成部の構成
を示すブロック図である。

【図４０】実施形態１７におけるテーブル再構成処理の
手順を示すフローチャートである。

【図４１】マルチロー、マルチカラムのテーブルの例を
示す図である。

【図４２】複合表の例を示す図である。

【符号の説明】

１０１ＨＴＭＬテーブル保持部１０２テーブル解析部１０３セル位置データ保持部１０４セルベクトル保持部１０５テーブルタイプ判定部１０６テーブルタイプ保持部１０７カット方向決定部１０８カット方向保持部１０９表セグメント生成部１１０表セグメント保持部１１１セルクラスタ作成部１１２セルクラスタ情報保持部１１３レイアウトセグメント生成部１１４レイアウトセグメント保持部２０１ＣＰＵ２０２ＲＯＭ２０３ＲＡＭ２０４ディスク装置２０５バス５０１ＨＴＭＬ文書保持部５０２一般セグメント生成部５０３一般セグメント保持部６０１、７０１テーブルセグメント生成部６０２、７０２テーブルセグメント保持部９０１セルデータ保持部１００１、１６０２、１８０２、２２０３シソーラス
・類似度判定部１００２、１６０３、１８０３、２２０４シソーラス
辞書１３０１、１６０１、２００２、２２０２部分文字列
抽出部１３０２、２００３文字列比較部１８０１、２００１、２２０１シンタックス判定部２５０１ＨＴＭＬテーブル再構成部２５０２ＨＴＭＬテーブル保持部３３０１、３５０１、３７０１付加データ除去部３３０２、３７０２、３９０１マルチロー・マルチカ
ラムテーブル処理部３５０２、３７０３、３９０２複合表処理部

───────────────────────────────────────────────────── フロントページの続き (72)発明者藤井憲一東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者伊藤史朗東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者上田隆也東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者池田裕治東京都大田区下丸子３丁目30番２号キヤノン株式会社内

Claims

【特許請求の範囲】

【請求項１】処理対象である文書中のテーブルを解析
して、各セルの位置関係を示すセル位置データと、各セ
ルの特徴を表現したセルベクトルとを生成するテーブル
解析手段と、該テーブル解析手段により生成されたセル位置データお
よびセルベクトルを参照してテーブルタイプを判定する
テーブルタイプ判定手段と、前記テーブルタイプが表を記述したテーブルである場合
に、前記テーブルからセグメントを生成する第１のセグ
メント生成手段と、前記テーブルタイプがレイアウトのためのテーブルであ
る場合に、前記テーブルからセグメントを生成する第２
のセグメント生成手段とを備えたことを特徴とする文書
分割装置。
【請求項２】前記第１のセグメント生成手段が、前記セル位置データおよび前記セルベクトルを参照し
て、前記テーブルにおいて各データが行または列のどち
らで表現されているかを判別し、当該テーブルの分割方
向を決める分割方向決定手段と、前記テーブルタイプおよび前記分割方向を参照して、前
記テーブルを分割してセグメントを生成する表セグメン
ト生成手段とを備えたことを特徴とする請求項１に記載
の文書分割装置。
【請求項３】前記第２のセグメント生成手段が、前記
テーブルそのものをセグメントとして生成することを特
徴とする請求項２に記載の文書分割装置。
【請求項４】前記第２のセグメント生成手段が、前記セルベクトルを参照して、前記テーブルにおいて各
セルをクラスタリングしてセルクラスタ情報を作成する
セルクラスタ作成手段と、前記セル位置データおよび前記セルクラスタ情報を参照
して、前記テーブル中のセルを結合してセグメントを生
成するレイアウトセグメント生成手段とを備えたことを
特徴とする請求項１に記載の文書分割装置。
【請求項５】前記第１のセグメント生成手段が、前記
テーブルそのものをセグメントとして生成することを特
徴とする請求項４に記載の文書分割装置。
【請求項６】前記第２のセグメント生成手段が、前記
テーブルそのものをセグメントとして生成することを特
徴とする請求項２に記載の文書分割装置。
【請求項７】テーブルを1つのセグメントとして文書
をセグメントに分割する一般セグメント生成手段を備
え、該一般セグメント生成手段により1つのセグメントとし
て生成されたテーブルを前記テーブル解析手段の処理対
象とすることを特徴とする請求項１に記載の文書分割装
置。
【請求項８】前記テーブル解析手段が更に、解析した
テーブルのセルデータを生成し、前記テーブルタイプ判
定手段が前記セルデータを参照してテーブルタイプを判
定する請求項１に記載の文書分割装置。
【請求項９】前記テーブルタイプ判定手段が、前記テ
ーブル解析手段により生成されたセル位置データおよび
セルデータを参照して、特定の位置にあるセルデータ間
の類似度に基づいてテーブルタイプを判定する類似度判
定手段を備えた請求項８に記載の文書分割装置。
【請求項１０】前記テーブルタイプ判定手段が、前記
テーブル解析手段により生成されたセル位置データおよ
びセルデータを参照して、特定の位置にあるセルデータ
から部分文字列を抽出する部分文字列抽出手段と、抽出
された部分文字列を比較してテーブルタイプを判定する
文字列比較手段とを備えた請求項８に記載の文書分割装
置。
【請求項１１】前記テーブルタイプ判定手段が、前記
テーブル解析手段により生成されたセル位置データおよ
びセルデータを参照して、特定の位置にあるセルデータ
から部分文字列を抽出する部分文字列抽出手段と、抽出
された部分文字列間の類似度に基づいてテーブルタイプ
を判定する類似度判定手段を備えた請求項８に記載の文
書分割装置。
【請求項１２】前記テーブルタイプ判定手段が、前記
テーブル解析手段により生成されたセル位置データおよ
びセルベクトルおよびセルデータを参照してテーブルタ
イプを判定するシンタックス判定手段と、該テーブル解
析手段により生成されたセル位置データおよびセルデー
タを参照して、特定の位置にあるセルデータ間の類似度
に基づいてテーブルタイプを判定する類似度判定手段を
備えた請求項８に記載の文書分割装置。
【請求項１３】前記テーブルタイプ判定手段が、前記
テーブル解析手段により生成されたセル位置データおよ
びセルベクトルおよびセルデータを参照してテーブルタ
イプを判定するシンタックス判定手段と、該テーブル解
析手段により生成されたセル位置データおよびセルデー
タを参照して、特定の位置にあるセルデータから部分文
字列を抽出する部分文字列抽出手段と、抽出された部分
文字列を比較してテーブルタイプを判定する文字列比較
手段とを備えた請求項８に記載の文書分割装置。
【請求項１４】前記テーブルタイプ判定手段が、前記
テーブル解析手段により生成されたセル位置データおよ
びセルベクトルおよびセルデータを参照してテーブルタ
イプを判定するシンタックス判定手段と、該テーブル解
析手段により生成されたセル位置データおよびセルデー
タを参照して、特定の位置にあるセルデータから部分文
字列を抽出する部分文字列抽出手段と、抽出された部分
文字列間の類似度に基づいてテーブルタイプを判定する
類似度判定手段を備えた請求項８に記載の文書分割装
置。
【請求項１５】処理対象のテーブルを解析し、各行及
び列のそれぞれでセル数が一定となるようにテーブルを
再構成するテーブル再構成手段を備え、前記テーブル解
析手段が、再構成されたテーブルを解析する請求項１に
記載の文書分割装置。
【請求項１６】前記テーブル再構成手段が、テーブル
データから表に付加されたデータを除去する付加データ
除去手段を備えた請求項１５に記載の文書分割装置。
【請求項１７】前記テーブル再構成手段が、テーブル
データの構造を解析して、テーブルを規則正しく再構成
するマルチロー・マルチカラム処理手段を備えた請求項
１５に記載の文書分割装置。
【請求項１８】前記テーブル再構成手段が、テーブル
を構成する情報記述の規則性を解析して、テーブルを再
構成する複合表処理手段を備えた請求項１５に記載の文
書分割装置。
【請求項１９】前記テーブル再構成手段が、テーブルデータから表に付加されたデータを除去する付
加データ除去手段と、テーブルデータの構造を解析して、テーブルを規則正し
く再構成するマルチロー・マルチカラム処理手段を備え
た請求項１５に記載の文書分割装置。
【請求項２０】前記テーブル再構成手段が、テーブルデータから表に付加されたデータを除去する付
加データ除去手段と、テーブルを構成する情報記述の規則性を解析して、テー
ブルを再構成する複合表処理手段とを備えた請求項１５
に記載の文書分割装置。
【請求項２１】前記テーブル再構成手段が、テーブルデータの構造を解析して、テーブルを規則正し
く再構成するマルチロー・マルチカラム処理手段と、テーブルを構成する情報記述の規則性を解析して、テー
ブルを再構成する複合表処理手段とを備えた請求項１５
に記載の文書分割装置。
【請求項２２】前記テーブル再構成手段が、テーブルデータから表に付加されたデータを除去する付
加データ除去手段と、テーブルデータの構造を解析して、テーブルを規則正し
く再構成するマルチロー・マルチカラム処理手段と、テーブルを構成する情報記述の規則性を解析して、テー
ブルを再構成する複合表処理手段とを備えた請求項１５
に記載の文書分割装置。
【請求項２３】処理対象である文書中のテーブルを解
析して、各セルの位置関係を示すセル位置データと、各
セルの特徴を表現したセルベクトルとを生成するテーブ
ル解析工程と、該テーブル解析工程により生成されたセル位置データお
よびセルベクトルを参照してテーブルタイプを判定する
テーブルタイプ判定工程と、前記テーブルタイプが表を記述したテーブルである場合
に、前記テーブルからセグメントを生成する第１のセグ
メント生成工程と、前記テーブルタイプがレイアウトのためのテーブルであ
る場合に、前記テーブルからセグメントを生成する第２
のセグメント生成工程とを備えたことを特徴とする文書
分割方法。
【請求項２４】前記第１のセグメント生成工程が、前記セル位置データおよび前記セルベクトルを参照し
て、前記テーブルにおいて各データが行または列のどち
らで表現されているかを判別し、当該テーブルの分割方
向を決める分割方向決定工程と、前記テーブルタイプおよび前記分割方向を参照して、前
記テーブルを分割してセグメントを生成する表セグメン
ト生成工程とを備えたことを特徴とする請求項２３に記
載の文書分割方法。
【請求項２５】前記第２のセグメント生成工程が、前
記テーブルそのものをセグメントとして生成することを
特徴とする請求項２４に記載の文書分割方法。
【請求項２６】前記第２のセグメント生成工程が、前記セルベクトルを参照して、前記テーブルにおいて各
セルをクラスタリングしてセルクラスタ情報を作成する
セルクラスタ作成工程と、前記セル位置データおよび前記セルクラスタ情報を参照
して、前記テーブル中のセルを結合してセグメントを生
成するレイアウトセグメント生成工程とを備えたことを
特徴とする請求項８に記載の文書分割方法。
【請求項２７】前記第１のセグメント生成工程が、前
記テーブルそのものをセグメントとして生成することを
特徴とする請求項２６に記載の文書分割方法。
【請求項２８】前記第２のセグメント生成工程が、前
記テーブルそのものをセグメントとして生成することを
特徴とする請求項２４に記載の文書分割方法。
【請求項２９】テーブルを1つのセグメントとして文
書をセグメントに分割する一般セグメント生成工程を備
え、該一般セグメント生成工程により1つのセグメントとし
て生成されたテーブルを前記テーブル解析工程の処理対
象とすることを特徴とする請求項２３に記載の文書分割
方法。
【請求項３０】前記テーブル解析工程において更に、
解析したテーブルのセルデータを生成し、前記テーブル
タイプ判定工程では前記セルデータを参照してテーブル
タイプを判定する請求項２３に記載の文書分割方法。
【請求項３１】前記テーブルタイプ判定工程が、前記
テーブル解析工程により生成されたセル位置データおよ
びセルデータを参照して、特定の位置にあるセルデータ
間の類似度に基づいてテーブルタイプを判定する類似度
判定工程を備えた請求項３０に記載の文書分割方法。
【請求項３２】前記テーブルタイプ判定工程が、前記
テーブル解析工程により生成されたセル位置データおよ
びセルデータを参照して、特定の位置にあるセルデータ
から部分文字列を抽出する部分文字列抽出工程と、抽出
された部分文字列を比較してテーブルタイプを判定する
文字列比較工程とを備えた請求項３０に記載の文書分割
方法。
【請求項３３】前記テーブルタイプ判定工程が、前記
テーブル解析工程により生成されたセル位置データおよ
びセルデータを参照して、特定の位置にあるセルデータ
から部分文字列を抽出する部分文字列抽出工程と、抽出
された部分文字列間の類似度に基づいてテーブルタイプ
を判定する類似度判定工程を備えた請求項３０に記載の
文書分割方法。
【請求項３４】前記テーブルタイプ判定工程が、前記
テーブル解析工程により生成されたセル位置データおよ
びセルベクトルおよびセルデータを参照してテーブルタ
イプを判定するシンタックス判定工程と、該テーブル解
析工程により生成されたセル位置データおよびセルデー
タを参照して、特定の位置にあるセルデータ間の類似度
に基づいてテーブルタイプを判定する類似度判定工程を
備えた請求項３０に記載の文書分割方法。
【請求項３５】前記テーブルタイプ判定工程が、前記
テーブル解析工程により生成されたセル位置データおよ
びセルベクトルおよびセルデータを参照してテーブルタ
イプを判定するシンタックス判定工程と、該テーブル解
析工程により生成されたセル位置データおよびセルデー
タを参照して、特定の位置にあるセルデータから部分文
字列を抽出する部分文字列抽出工程と、抽出された部分
文字列を比較してテーブルタイプを判定する文字列比較
工程とを備えた請求項３０に記載の文書分割方法。
【請求項３６】前記テーブルタイプ判定工程が、前記
テーブル解析工程により生成されたセル位置データおよ
びセルベクトルおよびセルデータを参照してテーブルタ
イプを判定するシンタックス判定工程と、該テーブル解
析工程により生成されたセル位置データおよびセルデー
タを参照して、特定の位置にあるセルデータから部分文
字列を抽出する部分文字列抽出工程と、抽出された部分
文字列間の類似度に基づいてテーブルタイプを判定する
類似度判定工程を備えた請求項３０に記載の文書分割方
法。
【請求項３７】処理対象のテーブルを解析し、各行及
び列のそれぞれでセル数が一定となるようにテーブルを
再構成するテーブル再構成工程を備え、前記テーブル解
析工程では、再構成されたテーブルを解析する請求項２
３に記載の文書分割方法。
【請求項３８】前記テーブル再構成工程が、テーブル
データから表に付加されたデータを除去する付加データ
除去工程を備えた請求項３７に記載の文書分割方法。
【請求項３９】前記テーブル再構成工程が、テーブル
データの構造を解析して、テーブルを規則正しく再構成
するマルチロー・マルチカラム処理工程を備えた請求項
３７に記載の文書分割方法。
【請求項４０】前記テーブル再構成工程が、テーブル
を構成する情報記述の規則性を解析して、テーブルを再
構成する複合表処理工程を備えた請求項３７に記載の文
書分割方法。
【請求項４１】前記テーブル再構成工程が、テーブルデータから表に付加されたデータを除去する付
加データ除去工程と、テーブルデータの構造を解析して、テーブルを規則正し
く再構成するマルチロー・マルチカラム処理工程を備え
た請求項３７に記載の文書分割方法。
【請求項４２】前記テーブル再構成工程が、テーブルデータから表に付加されたデータを除去する付
加データ除去工程と、テーブルを構成する情報記述の規則性を解析して、テー
ブルを再構成する複合表処理工程とを備えた請求項３７
に記載の文書分割方法。
【請求項４３】前記テーブル再構成工程が、テーブルデータの構造を解析して、テーブルを規則正し
く再構成するマルチロー・マルチカラム処理工程と、テーブルを構成する情報記述の規則性を解析して、テー
ブルを再構成する複合表処理工程とを備えた請求項３７
に記載の文書分割方法。
【請求項４４】前記テーブル再構成工程が、テーブルデータから表に付加されたデータを除去する付
加データ除去工程と、テーブルデータの構造を解析して、テーブルを規則正し
く再構成するマルチロー・マルチカラム処理工程と、テーブルを構成する情報記述の規則性を解析して、テー
ブルを再構成する複合表処理工程とを備えた請求項３７
に記載の文書分割方法。
【請求項４５】処理対象である文書中のテーブルを解
析して、各セルの位置関係を示すセル位置データと、各
セルの特徴を表現したセルベクトルとを生成するテーブ
ル解析工程と、該テーブル解析工程により生成されたセル位置データお
よびセルベクトルを参照してテーブルタイプを判定する
テーブルタイプ判定工程と、前記テーブルタイプが表を記述したテーブルである場合
に、前記テーブルからセグメントを生成する第１のセグ
メント生成工程と、前記テーブルタイプがレイアウトのためのテーブルであ
る場合に、前記テーブルからセグメントを生成する第２
のセグメント生成工程とをコンピュータに実行させるた
めの文書分割プログラムを記憶したことを特徴とする記
憶媒体。