JP2010108208A

JP2010108208A - 文書処理装置

Info

Publication number: JP2010108208A
Application number: JP2008279070A
Authority: JP
Inventors: Masakazu Fujio; 正和藤尾; Takashi Onoyama; 隆小野山; Akira Nakashige; 亮中重; Yasuyuki Nozaki; 康行野崎; Toshiko Matsumoto; 俊子松本; Mitsuharu Ohazama; 光晴大峡; Hiroshi Shinjo; 広新庄
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2008-10-30
Filing date: 2008-10-30
Publication date: 2010-05-13
Anticipated expiration: 2028-10-30
Also published as: JP5380040B2

Abstract

【課題】2-nup、4-nup形式で印刷された文書であっても、明示的な項目のないメタデータを正しく抽出する。
【解決手段】単語とメタデータ識別子の対応関係を記述したメタデータ単語辞書と、複数の単語の組合せとメタデータ識別子の対応関係を記述した複合項目辞書と、メタデータが持つと思われる特徴リストを記載したメタデータ特徴辞書と、メタデータ同士の並列性や階層性を記載したメタデータオントロジーと、抽出対象とするメタデータを指定した処理対象メタデータ指定辞書を用意する。第１の方法では、項目行を基点とし、罫線による表や行の整列、セクションのレイアウトに基づき、対応するデータが存在する方向を判定し、メタデータ行を抽出する方法である。第2の方法では、メタデータ特徴辞書に基づき、文書中の各行のメタデータらしさのスコアを計算し、スコアの高い行を基点に、メタデータの領域を適切な範囲で拡張する方法である。
【選択図】図１

Description

本発明は、電子文書の他、複合機等で電子化した多様な紙文書について、文書の領域についてタイトル、作成者、作成日等のラベル付け（メタデータ抽出）を行い、文書のライフサイクル管理を効率化するシステム及び文書処理装置に関する。

官公庁、民間企業においては、営業プレ活動、企画立案などの非定型業務のほか、審査・申込等の定型業務において、日々多くの文書が発生する。これらの文書は、通常電子化されているのみでコンテンツに対するラベル付けは行われておらず、整理しきれないまま各種文書管理システムの中に眠っている。しかし、近年コンプライアンス対応、労働生産性向上、カスタマーサービス向上といった観点から、蓄積文書に様々な観点から効率的にアクセスし、文書再利用、ナレッジ共有、問い合わせ対応等に活用したいという声が高まっている。そのためには、文書に記載されている書誌情報（タイトル、サブタイトル、作成者、作成日等）や、文書ごとに特徴的な情報（見積期限、注文番号等）を認識し、メタデータとして本文と対応づけて管理する技術が重要となってくる。

複合機等で電子化された非定型な紙文書から、メタデータを抽出する技術がいくつか開示されている。特許文献１では、文書画像からタイトルや宛先情報を抽出する技術が開示されている。まず画像のなかから画素成分のヒストグラム分布により決定される閾値を用いて文字行の抽出を行う。次に、文字行のサイズや、位置、アンダーラインの有無等の特徴に従い、タイトルらしさのスコアリングを行う。次に、抽出したタイトルとの位置関係に関する規則を基に、宛先、発信元情報を抽出する。また、項目-データ形式の文字行からメタデータを抽出する場合、項目名が読み取れなかった場合を想定して、矩形のサイズに従い、項目とデータのペアらしい領域を順序付けし、最もスコアが高いペアからタイトルの抽出を行っている。

特許文献２では、名刺等の非定形文書を想定し、抽出した文字行と項目辞書との照合に基づきタグを割り当て、同一行中に複数のタグが存在するか、隣接する行とのタグが矛盾しないかをチェックし、文字行に割り当てるタグの選択や、文字行中のタグ領域の分割を行い、タグの置き換えがなくなるまで繰り返す。

特開平09-134406 特開2001-344562

しかしながら、特許文献１に述べられた手法では、ターゲットとするメタデータ（ここではタイトル）2-nup、4-nup形式で印刷された文書を読み取ることを想定していないため、特徴抽出がうまくいかず、メタデータの抽出がうまくいなかくなる場合がある。また、項目-データ形式の文字行からメタデータを抽出する場合、ファクス印字等の無関係な領域や、タイトルとは無関係な情報が文書の情報に書かれていた場合に、誤抽出する問題がある。また、項目行が改行されている場合と2種類の項目が縦に並んでいる場合、あるいはデータが改行して下の行まで続く場合など、実際の文書では、矩形パターンのみでは判断の困難な事例が多く現れる。

特許文献２に述べられた手法では、多様な文書の解析が可能と述べているが、処理対象として挙げられているのは名刺である。また、同じタグ（もしくは項目名）に相当する情報をもつ同種の文書であっても、項目名の記載の仕方は様々であり、例えば、項目名の前後に修飾語が付加されて複合語を構成している場合や、後ろに“（”で付加情報を追加している場合などがあり、開示された手段のみではタグ（及び対応するデータ）の範囲は決定できない。

上記課題を解決するために、本発明では、単語とメタデータ識別子の対応関係を記述したメタデータ単語辞書と、複数の単語の組合せとメタデータ識別子の対応関係を記述した複合項目辞書と、メタデータが持つと思われる特徴リストを記載したメタデータ特徴辞書と、メタデータ同士の並列性や階層性を記載したメタデータオントロジーと、抽出対象とするメタデータを指定した処理対象メタデータ指定辞書を用意する。

メタデータ抽出処理は大きく分けて２つに分けられる。第１の方法では、項目行を基点とし、罫線による表や行の整列、セクションのレイアウトに基づき、対応するデータが存在する方向を判定し、メタデータ行を抽出する方法である。第2の方法では、
メタデータ特徴辞書に基づき、文書中の各行のメタデータらしさのスコアを計算し、スコアの高い行を基点に、メタデータの領域を適切な範囲で拡張する方法である。
メタデータ抽出処理では、2-nup文書などを処理する際に、ページの外接矩形の基準を補正するため、文書内の特徴的な空白矩形領域の探索を行う。次に、抽出した文字間および文字罫線間（空白矩形も含む）の隣接関係に基づき１次行抽出を行う。また、垂直罫線、水平罫線の交差パターンに基づき、枠構造の抽出を行う（枠ありテーブル）。

次に、１次行抽出結果に基づき、文字行間の隣接関係解析を行う。このとき、文字行間のアラインメント特徴（センタリング、左ぞろえ、右ぞろえ）と、文字行間の空白変化パターンにより、ブロック候補を多重仮説として生成する。また、正規表現で定義したセクションパターンに基づき、セクション候補行を抽出し、セクション番号の増加性、セクション候補行間の位置関係の制約に基づき、セクション領域候補の抽出を行う。次に、抽出したブロック候補間の隣接関係に基づき、カラム構造を構成するもの、テーブル構造を構成するものを判定する。また、行とブロック候補間の関係に基づき、過剰に接続された行の切断を行う。

以上の処理で、文書内の領域のラベル付け（枠ありテーブル、枠なしテーブル、カラム、セクション）を行う。

次に、第1のメタデータ抽出処理を行う。この処理では、文字行とメタデータ単語辞書の照合に基づき、基点となる項目行を設定する。そしてこの項目が先ほど抽出したどのブロックに含まれるかを判定する。セクション領域に含まれる場合は、その階層性に基づき、対応するデータ領域を決定する。枠ありテーブル領域に含まれる場合は、枠構造解析により、項目-データ関係を抽出し、メタデータを抽出する。カラム領域の場合には、項目-データ探索は行わない。その他の領域に含まれる場合は、項目行や、既に他のメタデータの要素として抽出されている文字行や、他の論理構造（セクション、テーブル、カラム）に含まれている文字行を回避しながら、広さ優先探索でデータ行を探索する。

続いて、第2のメタデータ抽出処理を行う。この処理では、文字高さ、センタリング、ページ矩形内の存在位置、下線、縦方向孤立性、上下方向の隣接行数等のレイアウト特徴や、日付パターン、接尾辞パターン、隣接行の文字列、項目辞書等のテキスト特徴に基づき、あらかじめメタデータ別に設定した使用特徴とそのスコア計算方法に従って、メタデータ性の計算を行う。これにより、スコアの組合せが最大となるメタデータの組合せを選択する。最後に、抽出したメタデータのデータ範囲の拡張処理を行う。データの拡張処理は、まず右方向に拡張したあと、下方向への拡張を行う。拡張処理は、距離判定条件とメタデータスコア判定条件と形状判定条件の３条件にもとづき行う。

本発明によれば、2-nup、4-nup形式で印刷された文書であっても、明示的な項目のないメタデータも適切に抽出できる。また、枠なし表、枠あり表内のセクション構造を持つもの、項目行が改行されている場合と2種類の項目が縦に並んでいる場合、あるいはデータが改行して下の行まで続く場合など、非定型文書中から必要なメタデータを抽出することができる。

また、文書内のメタデータを認識することにより、認識結果の文字列を、メタデータごとに区別して処理（数値、日付の範囲指定や、組織名、部署名に関するオントロジー適用等）することで、検索クエリとの柔軟なマッチングが可能となる。また、“取引先”など、機能ラベルに基づいた文書の検索が可能となる。また、複数のメタ属性を組み合わせた串刺し検索をすることにより、検索結果の絞り込みを支援することが可能となる。

本発明は、電子文書の他、複合機等で電子化した多様な紙文書について、文書の領域についてタイトル、作成者、作成日等のラベル付け（メタデータ抽出）を行って、文書のライフサイクル管理を効率化するシステム及び文書処理装置に関する。

最初に、本発明で抽出対象とするメタデータについて説明する。メタデータとは、文書に記載されている書誌情報（タイトル、サブタイトル、作成者、作成日等）や、文書ごとに特徴的な情報（見積期限、注文番号等）のことを指す。本発明では、特定のメタデータだけを抽出するのではなく、抽出したいメタデータの特徴をカスタマイズすることで、ユーザが追加定義することができる。

図３６に、営業証憑を例として抽出したメタデータの例を示す。図３６において、表示P-M101はタイトルメタデータを表す。タイトルメタデータとは、この場合書類の分類を表すものである。表示P-M102は、番号メタデータを表す。表示P-M103は、作成日メタデータを表す。表示P-M104は、宛先メタデータを表す。表示P-M106は作成者（発行者）メタデータを表す。そP-M105は、担当者メタデータをあらわす。

以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。

＜メタデータ抽出装置の構成＞
図１は、本発明の実施形態による文書処理装置の概略構成を示す図である。ここでは、電子文書の他、複合機等で電子化した紙文書を想定している。

入力装置１１０と、画像入力装置１１１と、表示装置１２と、印刷手段１４と、演算部１７を形成するＣＰＵ１３とワークエリア１５と、情報保持手段１６と、を備えている。

ワークエリア１５は、ＯＳ１５１のほか、変換プログラム１５３、通信プログラム１５２を既に備えているか、若しくは、それらを必要に応じて情報保持手段１６からロードする。なお、情報保持手段１６は、変換プログラム１５３が必要とする各種辞書を備えている。

入力装置１１としては、例えば、変換プログラム１５３に入力対象のデータやコマンド等を入力するためのキーボード、マウス、タブレット等が挙げられる。

画像入力装置１１１としては、例えば、紙文書を処理対象とする場合に、文書を画像データとして、取り込むためのスキャナ等の装置が挙げられる。

ＯＳ１５１は、入力装置１１、表示装置１２、ＣＰＵ１３、印刷手段１４、通信プログラム１５２、変換プログラム１５３、その他図示しないメモリ、記憶装置の動作を制御する機能を備える。通信プログラム１５２は、処置対象の文書をネットワーク経由で取得するための通信機能を備える。

文書処理プログラム１５３は、入力装置１１１によって入力された文書画像もしくは、通信プログラム１５２によって取得された電子文書データを処理対象とし、メタデータを抽出する機能を備える。

情報保持手段１６は、単語-メタデータ候補対応辞書１６１と、複合項目辞書１６２と、メタデータ特徴辞書１６３と、メタデータオントロジー１６４と、文書-メタデータ対応表１６５と、を備えている。これらの辞書は、文書処理プログラム１５３がメタデータを抽出する際に参照する辞書データベースとして機能している。

単語-メタデータ対応辞書１６１は、単語や正規表現と、候補となるメタデータのリストを記載した辞書を格納する。複合項目辞書１６２は、複数の単語もしくは単語とメタデータの組合せと、候補となるメタデータのリストを記載した辞書を格納する。メタデータ特徴辞書１６３は、抽出対象のメタデータらしさを判断するための特徴量を格納する。項目照合定義辞書１６４は、各項目の存在位置と、曖昧照合の閾値の定義を格納する。文書とメタデータ対応表１６５は、認識結果のメタデータと文書対応付けを格納する。

表示装置１２は、文書処理プログラム１５３によってメタデータ抽出結果を表示するディスプレイ等の装置である。ＣＰＵ１３は、ワークエリア１５内の各種プログラムをロードし、ＯＳ１５１と協働してプログラムの内容を実行する。印刷装置１４は、変換プログラム１５３による入力文字列の変換結果を出力するための装置である。通信ネットワーク１９は、ネットワークでつながった別の装置上のデータやワークエリア、情報保持手段にアクセスするための装置である。
＜用語の説明＞
図２に、以降の処理ステップの説明で用いる、“座標”、“隣接関係”についての説明を行う。図２−1は、各要素（テキスト、罫線、イメージ）の外接矩形座標を表す。図において、Leftは左の座標値、Rightは右の座標値、Topは上の座標知、Bottomは下の座標値を表す。以降の処理では、左下を原点とする座標系で大小関係の計算を行う。座標系が異なる場合（例えば、左上原点の場合、Topの値よりBottomの値の法が大きくなる）、大小比較を変更することで、同じ処理で動作可能である。

図２−２は、要素間に重なりがない場合の隣接関係を表した模式図である。例えば、基準行に対し、右行となるのは、垂直方向の座標に重なりが十分あり、ターゲット要素の左右中心座標が、基準行の左右中心座標より大きい場合である。以下に、各方向にたいする判定基準を示す。

「基準要素にたいし、ターゲット要素がX方向にある」とは、例えば以下に示す基準を満たせばよい。
・X=上の場合：(1)基準要素の(Top+Bottom)/2＜ターゲット要素の(Top+Bottom)/2、
(2)ovlpH＞MAX(基準要素幅、ターゲット要素幅)/2
・X=下の場合：(1)基準要素の(Top+Bottom)/2＞ターゲット要素の(Top+Bottom)/2、
(2)ovlpH＞MAX(基準要素幅、ターゲット要素幅)/2
・X=左の場合：(1)基準要素の(Right+Left)/2＞ターゲット要素の(Right+Left)/2、
(2)ovlpV＞MAX(基準要素高さ、ターゲット要素高さ)/2
・X=右の場合：(1)基準要素の(Right+Left)/2＜ターゲット要素の(Right+Left)/2、
(2)ovlpV＞MAX(基準要素高さ、ターゲット要素高さ)/2
・X=左上の場合：(1)基準要素の(Right+Left)/2＞ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＜ターゲット要素の(Top+Bottom)/2
・X=右上の場合：(1)基準要素の(Right+Left)/2＜ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＜ターゲット要素の(Top+Bottom)/2
・X=左下の場合：(1)基準要素の(Right+Left)/2＞ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＞ターゲット要素の(Top+Bottom)/2
・X=右下の場合：(1)基準要素の(Right+Left)/2＜ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＞ターゲット要素の(Top+Bottom)/2
図２−３は、要素間に重なりがある場合の隣接関係を表した模式図である。例えば、基準行に対し、右行となるのは、垂直方向の座標の重なりが十分あり、ターゲット座標の左右中心座標が、基準座標の左右中心座標よりも右側にある場合である。以下に、各方向にたいする判定基準を示す。

「基準要素にたいし、ターゲット要素がX方向にある」とは、例えば以下に示す基準を満たすことを意味する。
・X=上の場合：(1)ovlpH＞ターゲット要素の(Left+Right)/2、
(2)基準要素の(Top+Bottom)/2＜ターゲット要素の(Top+Bottom)/2
・X=下の場合：(1)ovlpH＞ターゲット要素の(Left+Right)/2、
(2)基準要素の(Top+Bottom)/2＞ターゲット要素の(Top+Bottom)/2
・X=左の場合：(1)ovlpV＞ターゲット要素の(Top+Bottom)/2、
(2)基準要素の(Right+Left)/2＞ターゲット要素の(Right+Left)/2
・X=右の場合：(1)ovlpV＞ターゲット要素の(Top+Bottom)/2、
(2)基準要素の(Right+Left)/2＜ターゲット要素の(Right+Left)/2
・X=左上の場合：(1)基準要素の(Right+Left)/2＞ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＜ターゲット要素の(Top+Bottom)/2
・X=右上の場合：(1)基準要素の(Right+Left)/2＜ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＜ターゲット要素の(Top+Bottom)/2
・X=左下の場合：(1)基準要素の(Right+Left)/2＞ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＞ターゲット要素の(Top+Bottom)/2
・X=右下の場合：(1)基準要素の(Right+Left)/2＜ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2＞ターゲット要素の(Top+Bottom)/2
＜メタデータ抽出の全体フロー＞
図３は、本発明におけるメタデータ抽出フローの全体フローチャートである。
ページ基準座標抽出処理P-A301では、集約印刷（2-nup等）された文書についても、正しくメタデータ抽出が行えるように、入力画像が複数ページから構成されているか否かの判定を行う。詳細については、図４以降で述べる。枠抽出処理P-A302では、画像や電子文書から抽出した水平、垂直方向の罫線の外接矩形座標を基に、枠構造の抽出を行う。枠構造の抽出については、交点座標を用いた枠抽出手法（特許第3936436号）を用いることができる。要素間の隣接関係判定処理P-A303では、各要素の上下左右方向の隣接要素の抽出を行う。隣接方向の定義は前述した通りである。方向定義にしがたい、隣接要素リストを抽出するステップについては、以下で説明する。文字行抽出処理P-A304では、P-A303で抽出した隣接関係情報を基に、縦横の文字行の抽出を行う。文字行間の配置関係解析P-A305では、行と行の整列関係、インデント関係といった物理的な配置関係の解析を行う。ブロック抽出処理P-A306では、P-A305で解析した文字行間の関係に基づき、ブロック（行の集合）を抽出する。このブロックは、論文等のアブスト領域や、段落領域、セクション領域、証憑類の宛先情報領域、作成者情報領域に対応する。但し、この段階では、論理的に正しい境界で分割されていなくてもよい。矛盾パターン判定処理P-A307では、処理P-A306で抽出したブロックと、各ブロック左揃え、右揃え、中心揃え特徴を基に、矛盾する行がないか、判定を行う。行特徴設定P-A308では、処理P-A306で抽出したブロックの種別（カラム、セクション、テーブル等）や、行高さ、センタリング等のレイアウト特徴及び行の文字列に基づき、各文字行の言語およびレイアウト特徴量を設定する。

以上の処理フローにより、本発明によれば、2-nup、4-nup形式で印刷された文書であっても、明示的な項目のないメタデータも適切に抽出できる。また、枠なし表、枠あり表内のセクション構造を持つもの、項目行が改行されている場合と2種類の項目が縦に並んでいる場合、あるいはデータが改行して下の行まで続く場合など、非定型文書中から必要なメタデータを抽出することができる。
＜基準座標の調整＞
図３の処理P-A310では、ページの右上、左上、センタリング等、ページ内の位置に関する特徴量の設定を行う。従って、2-up、4-up等の文書を対象に、文字行のメタデータスコア計算により各種メタデータを判定する場合、レイアウト特徴量計算の基準となるページ座標の補正が必要となる。図４〜６を用いて、ページ基準座標の設定フローについて説明する。

図４は、領域分割によるページ基準座標抽出の概要を示したフローチャートである。ステップP-B101は、文書領域の縦方向分割処理を表し、ステップP-B102は、文書領域の横方向分割処理を表す。各処理の詳細については、図５において説明する。

本処理を適用してから、メタデータ抽出処理を実行することで、集約印刷（2-nup等）された文書についても、メタデータ抽出を行うことができる。

図５は、文書領域の縦方向分割処理の概要を示すフローチャートである。目的は、文書要素のＸ軸方向への射影成分において、成分がない区間のうち、ページ境界に相当するものを見つけることである。

最初に、ベクトル生成処理P-C101において、X軸方向への射影成分を生成する。図６のE-603に、X軸方向の射影成分の例を示す。横軸がＸ座標の位置に相当し、縦軸が、要素の幅の合計値を表す。次に、図５のステップP-C102において、射影成分のない区間（空白区間）の幅が指定閾値以上のX座標区間を全て抽出する。ステップP-C103において、抽出した空白区間のうち、幅が同等の組合せ（幅の差が指定したポイント以下）があるかどうか探索する。組合せが見つかった場合、最も左の要素の（Right＋Left）/2を、ページ右座標として終了する。

組合せが見つからなかった場合、ステップP-C104において、余白パターンが存在するかどうかをチェックする。余白パターンとは、図６のE-611に示したように、ページが丸ごとない領域を射影したパターンに相当する。余白パターンを判定するには、例えば以下のようなルールを適用する。
（１）射影の空白領域の幅が、用紙の横幅の0.45倍以上
（２）用紙の横方向中心位置より右側に存在
余白パターンが見つかった場合、ページ座標の右座標を、余白座標の左座標に設定する。実際には余白領域にヘッダ、フッタ、ページ番号のみ印刷されている場合もあり、空白領域として取れない可能性もある。その場合、射影成分のベースラインを決定し、一定の閾値以上の頻度値（図６の各ヒストグラムの高さに相当する）以上のもので、上記空白パターンを探すようにしてもよい。ベースラインの設定は、例えば、ヒストグラムの高さが最も高い領域の値の1/10に設定する、といった方法が取れる。最後に、センター区間P-C105文書領域の横方向分割処理（図４のステップP-B102）は、縦方向の分割処理と同じ方法を、要素のTop座標およびBottom座標を用いてやればよい。

図６に、6-up文書と2-up文書の例について示す。E-601は、6-up文書におけるテキスト、罫線の外接矩形座標をY軸方向に射影したものである。縦軸がY座標の位置に相当し、横軸が要素の幅（Right-Left）の合計値を表す。E-603は、同じものをX軸方向に射影したものである。横軸がＸ座標の位置に相当し、縦軸が要素の高さの合計値を表す。ヒストグラムE-601により、縦軸のセンター領域に空白領域E-602があることがわかる。また、ヒストグラムE-603から、同等のサイズの空白領域が繰り返して現れ、それら全体の中心が水平方向の中心にあることがわかる。以上のように、X軸、Y軸方向の射影成分による空白領域のサイズと配置から、2-up、4-upなど複数ページから構成されている場合に、本来のページ座標を抽出することが可能となる。
＜行抽出ステップ＞
行の抽出は、隣接情報だけでは決定できない。あらゆる接続、分割を検証し、対称性や、整列性から尤もらしい区切りを見つけることが望ましいが、一般には組合せ爆発を起こすため、全ての組合せを試すことはできない。

図７は、文字行抽出処理の概要を表すフローチャートである。文字行抽出は、大きく分けて、ステップP-L100：文字隣接関係の取得処理、ステップP-L200：隣接関係のラベル付け処理、ステップP-L300：縦（または横）行の抽出の３ステップに分けられる。

ステップP-L100：文字隣接関係の取得処理では、上で図２を用いて説明した隣接関係に基づいて、各文字のT（上）、B（下）、L（左）、R（右）の４方向について、方向の隣接文字リストを取得する。ステップP-L200：隣接関係のラベル付け処理では、ステップP-L100で取得した文字隣接関係について、周辺の隣接関係との比較に基づくラベル付けを行う。最後のステップのP-L300：縦（または横）行の抽出ステップでは、P-L200のラベル付け結果に基づき、文字行の抽出を行う。
[ステップP-L100：隣接文字リストの取得処理]
本処理では、基準となる文字とその他の全ての文字について、以下の基準を満たす隣接文字リストを取得する。以降、基準となる文字を基準文字、その他の文字をターゲット文字と呼ぶ。隣接要素リストは、以下の基準で求める。
（１）右隣接要素であるもののうち、ターゲット要素への距離（Left1-Right0）が最小のもの。
（２）最小の垂直距離との差が、閾値以下（0.76pt以下）のものは最小とみなす。

上記閾値は参考例であり、その値に限ったものではない。図８に、基準要素の右に複数のターゲット要素があった場合の隣接関係の定義方法を示す。

図８において、要素E-801は、基準要素、要素E-802は、ターゲット要素、要素E-803は、別のターゲット要素を表す。事例E-811は、基準要素E-801に一番近い隣接要素E-802への距離と、要素E-803への距離がまったく同じ場合を表す。この場合、基準要素E-801の右方向の文字隣接リストは、E-802とE-803の二つになる。事例E-812は、基準要素E-801に一番近い隣接要素E-802への距離とその他のE-803への距離の差が、上記条件で示した閾値（0.76pt）以下の場合に相当する。この場合も、要素E-803は、基準要素E-801の右方向の文字隣接リストとして追加される。事例E-813は、基準要素E-801に一番近い隣接要素E-802への距離と、要素E-803への距離の差が、上記条件で示した閾値（0.76pt）より大きい場合に相当する。この場合、要素E-803は、基準要素E-801の右方向隣接要素とはならない。

以上の手順により、基準文字の右方向の隣接要素リストを取得することができる。同様の処理を、上方向、下方向、左方向についても行うことで、各文字のT（上）、B（下）、L（左）、R（右）の４方向について、隣接文字リストを取得することができる。
[ステップP-L200：隣接関係のラベル付け処理]
本処理では、ステップP-L100で取得した、各文字のT（上）、B（下）、L（左）、R（右）、４方向の隣接関係について、文字行抽出で参照するための特徴ラベルを付与する。

図９は、隣接関係のラベル付け処理の概要を表すフローチャートである。まず、ステップP-D201で、横行の開始候補かどうか判定する。判定は以下の条件で行う。
条件100（横行開始文字判定）：
（１）左方向に隣接文字をもたない。
（２）左方向に複数の隣接文字を持つ。
（３）左方向に一つだけ隣接文字を持つが、その文字は右方向に複数の隣接文字を持つ。
（４）左方向に一つだけ隣接文字を持つが、その文字は既に他の行の要素として抽出済み。

次に、ステップP-D202において、右隣接関係のラベル付け処理を行う。これは、水平方向の文字間の距離変化や、垂直方向の文字間距離との関係、色情報、形態素情報などに基づき決定される。詳細は、後ほど図１０〜１２を用いて説明する。次に、ステップP-D203において、縦行の開始候補かどうか判定する。判定は以下の条件で行う。

条件200（縦行開始文字判定）：
（１）下方向にのみ文字隣接関係が存在しない（罫線で囲まれている場合等）。
次に、ステップP-D202において、下隣接関係のラベル付け処理を行う。これは、垂直方向の文字間の距離変化や、水平方向の文字間距離との関係、色情報、形態素情報などに基づき決定される。処理の詳細は、座標系を９０度変えただけで、ステップP-D202と同じ処理を行う。

図１０〜１２は、隣接関係のラベル付け処理の概要を表すフローチャートである。以下のフローは、”隣接方向”の部分を”右方向”もしくは”左方向”に読みかえることにより、何れの処理にも適用可能である。まず、図１０のステップP-E101において、隣接要素への距離（dist1）を取得する。次に、ステップP-E102において、隣接要素の隣接方向にさらに隣接要素があれば、その文字間距離（dist2）を取得する。dist1とdist2の値が同等かもしくは大小関係かを判定し、隣接側の距離変化ラベルを設定する。
（１）ケース1：dist1とdist2の差が5.34pt未満
隣接関係の距離変化ラベルを”R_SAME”とする。
（２）ケース2：dist1 - dist2 > 5.34
隣接関係の距離変化ラベルを”R_SMALLER”とする。
（３）ケース3：dist2 - dist1 > 5.34
隣接関係の距離変化ラベルを”R_LARGER”とする。
隣接文字の隣接要素がない場合は、ラベルを”R_SAME”とする。次に、ステップP-E105において、逆方向の隣接方向に文字があるかどうかチェックする。ある場合、その文字間距離（dist0）を取得する。逆方向に隣接文字がない場合は、ステップP-E110において、逆隣接側の距離変化ラベルを”L_SAME”とする。距離変化ラベルの設定方法は、前述の場合と同じで、以下の通りである。
（１）ケース1：dist0とdist1の差が5.34pt未満
隣接関係の距離変化ラベルを”L_SAME”とする。
（２）ケース2：dist0 - dist1 > 5.34
隣接関係の距離変化ラベルを”L_SMALLER”とする。
（３）ケース3：dist1 - dist0 > 5.34
隣接関係の距離変化ラベルを”L_LARGER”とする。

以上の処理により、文字の左側と右側（もしくは上側と下側）の2つの距離変化ラベルが設定される。

次に、ステップP-E108、P-E109において、隣接関係の距離の絶対値に基づき、ラベルを設定する。ステップP-E108では、文字間距離が、文字幅の3/4以下であれば、ラベル”DIST_MIN”を設定する。ステップP-E109では、文字間距離が、148pt以上であれば、ラベル”DIST_MAX”を設定する。

図１１は、隣接関係のラベル付け処理の続きを表すフローチャートである。このフローでは、隣接関係のラベルを設定する際に、直交方向（右方向でれば、上下、下方向であれば、左右）の、隣接関係を考慮する。まずステップP-E202において、隣接要素の直交方向の隣接要素があるかどうか判定する。図１３のE-B201およびE-B202に、”隣接要素の直行方向の隣接要素”の例を示した。この例では、基準要素“ろ”の隣接要素が“は”であり、“は”の直交方向隣接要素が、E-B202“ほ”もしくはE-B201“へ”である。”隣接要素の直行方向の隣接要素”が存在した場合、ステップP-E203において、直交方向の距離（dist3）を取得する。図１３で言うと、要素E-B212に相当する。

直交方向の距離変化ラベルの設定方法は、水平方向の場合と同様で、以下のようになる。
（１）ケース1：dist1とdist3の差が5.34pt未満
隣接関係の距離変化ラベルを”PPD_SAME”とする。
（２）ケース2：dist3 - dist1 > 5.34
隣接関係の距離変化ラベルを”PPD_SMALLER”とする。
（３）ケース3：dist1 - dist3 > 5.34
隣接関係の距離変化ラベルを”PPD_LARGER”とする。
同様に、逆の直交方向要素であるE-B212についても距離変化ラベルを設定する。

次に、ステップP-E206において、E-B201の位置関係にある要素が、並列要素の条件を満たすかどうか判定する。満たす場合は、ラベル”PARA”を設定する。並列要素の判定条件を、図１３のE-B300の例を用いて説明する。

条件300（並列要素の判定方法）
以下のいずれかの条件を満たす。
（１）E-B301とE-B302が丸数字であり、数字が１増加している。
=> ラベル”PARA”を設定。
（２）E-B301とE-B302が、ユーザ辞書に”PARA文字”として登録した文字である。
（例えば、○、★、◎等）。 => ラベル”PARA”を設定。
（３）E-B301とE-B302が、ユーザ辞書に”PARA-CAND文字”として登録した文字で
あり（例えば、“−”、“・”、“＊”等）、E-B301が、前述した、横行開始条件100を
満たす。 => ラベル”PARA”を設定。

以上で、垂直方向の要素を考慮した、文字隣接関係のラベル設定方法の説明を終わる。

図１２は、隣接関係のラベル付け処理の続きを表すフローチャートである。この処理では、距離変化以外の残りの特徴について、隣接関係のラベル付けを行う。まずステップP-E301において、隣接する文字の色が同等であるかどうかを検証する。そのため、文字の色をRGB空間（各軸の値域は0〜255）で表現し、3次元空間上でのユークリッド距離が、閾値（例えば1。0）以上の場合に、別の色としてラベル”BI_OTHER_COLOR”を設定する。次にステップP-E302において、同一の枠に含まれないか、片方が枠に含まれない場合、ラベル”BI-OTHER-CELL”を設定する。次にステップP-E303において、文字間に境界となる罫線があるかどうかを判定する。罫線があった場合、ラベル”BI_OTHER_KEISEN”を設定する。

条件400（文字境界罫線の判定方法）
（１）水平方向の隣接関係の場合：高さが文字高さ以上
（２）垂直方向の隣接関係の場合：幅が文字幅以上
次に、ステップP-E304において、形態素解析境界と一致するかどうかを判定する。その際、基準文字の左方向（もしくは上方向）に隣接関係をたどり、行開始候補となる文字を見つけ、基準文字の右方向（もしくは下方向）に隣接関係をたどり、隣接要素がなくなるか、複数現れる文字を見つけ、その間の文字について形態素解析処理を実行する。その結果、基準文字の右方向（もしくは下方向）の隣接関係が、形態素の区切りと一致した場合、ラベル”MA_SEG”を設定し、それ以外の場合は、ラベル”MA_IN”を設定する。次に、ステップP-E305において、ユーザ定義正規表現による文字列境界ラベルの設定を行う。ユーザ定義正規表現とは、図１５のテーブルT-A200で定義されるものである。図１５において、項目T-A201は、正規表現定義フィールドを表す。図１５についての説明は、別途行う。
[項目T-A202は、可能性のあるメタデータの識別子を表す。項目T-A203は、定義された正規表現が、当該識別子の“項目名”パターンの定義なのか“値”パターンの定義なのかを指定する。]
形態素解析を実施した場合と同様に、基準文字を含む文字列に対してユーザ定義辞書（図１５）に定義した正規表現との照合を行い、基準文字とその隣接文字（右もしくは下）が同じ正規表現に照合した場合、ラベル”REG_IN”を設定する。

[ステップP-L300：横（または縦）行抽出]
図１４は、図７の文字行抽出ステップの最後の処理、縦（または横）行の抽出処理の概要を表すフローチャートである。ここでは、ステップP-L200で設定した、文字間隣接関係のラベルに基づき、行の接続・切断関係の判定を行う。まず、ステップP-F101において、処理対象文字の右方向（縦行の場合は下方向）に、隣接文字が一つだけあるかどうか判定する。Noの場合、文字行の境界と判断し、処理を終了する。Yesの場合、隣接文字が既に他の行の要素でないか判定する。Noの場合、文字行の境界と判断し、処理を終了する。Yesの場合、処理対象の隣接関係と直交方向の関係ラベルを参照し、近傍範囲を設定する。近傍範囲の定義について、図１６の例で説明する。図１６において、隣接関係E-C100が現在接続判定中の文字間隣接関係であるとする。この時、隣接文字E-C123の直交方向の隣接関係E-C101、E-C102、E-C103のラベルをチェックし、距離変化のラベルが、”LARGER”もしく”DIST_MAX”を持たない範囲を近傍範囲と定義する。そして、近傍範囲の文字の左方向（縦行の場合は上方向）の隣接関係を、”近傍関係”と定義する。従って、隣接関係E-C102およびE-C101のラベルが“SAME”であり、隣接関係E-C103およびE-C104の関係が”LARGER”であれば、隣接関係E-C100の近傍関係は、隣接関係E-C111とE-C112になる。また、場合によっては、隣接要素E-C123が直交方向に隣接文字を持たない可能性がある（要素E-C122が存在しない場合）。その場合、隣接関係のラベルが、”LARGER”か”DIST_MAX”を持たない間、右方向（縦行の場合下方向）に隣接関係をたどり、最初に直交方向の文字が現れた文字要素を用いて、同じ手順で近傍関係の設定を行う。
以上で、近傍関係の定義の説明を終わる。

次に、ステップP-F104において、処理対象の隣接関係と近傍関係全体で、処理P-L200で設定した隣接関係のラベルについて、切断性を持つラベルと、接続性を持つラベルについて重みづけ線型和を計算する（以降接続スコアと呼ぶ）。その値が正の場合、接続と判定し、負の場合は切断と判定する。接続性と切断性については、図１７に示すような辞書として保持しておく。図１７のT-B101は、処理P-L200で設定した隣接関係のラベルを表す。項目T-B102は、各ラベルの重みを表す。正の値は、接続性を持つラベルであることを表し、負の値は切断性を持つラベルであることを表す。この重みは人手で設定してもよいし、正解データから、既存の機械学習手法を用いて決定してもよい。

以上で、文字行抽出の一次ステップは終了する。ここでの抽出結果は、次に説明するブロック抽出の結果を反映し、再抽出される場合があることに注意されたい。

[ブロック領域抽出処理]
次に、図３の処理P-A306のブロック領域抽出処理について説明する。

図１８は、ブロック領域抽出処理の概要を表すフローチャートである。最初に、ステップP-F101において、文字行間の隣接関係の解析を行う。これは、ステップP-L100（隣接文字リストの取得処理）で文字に対して行った処理を、文字行に対して実施することで実現できる。その際、文字の外接矩形の代わりに、文字行の外接矩形座標を用いる。これにより、T（上）、B(下)、R（右）、L（左）方向の隣接行リストを取得することができる。

次に、ステップP-F102において、文字行間の隣接関係を基に、複合行候補を追加する。複合行とは、本来一行でありながら、枠に入りきらないなどの理由で改行されているものや、枠内に並列に並んでいる行などを想定している。複合行を生成するには、まず、L側もしくはR側に、隣接行を複数持つ行を探索する。そして、隣接行集合全体のTop座標とBottom座標の中心座標を計算し、もとの行のTop座標とBottom座標の中心座標との差が、閾値（例えば0.76pt）未満であれば、上下方向の配置がセンタリングしているものとみなし、隣接行集合を複合行として登録する。同様に、T側もしくはB側に、隣接行を複数持つ行を探索する。そして、隣接行全体のLeft座標とRight座標の中心座標を計算し、元の行のLeft座標とRight座標の中心座標との差が、閾値（例えば0.76pt）未満であれば、左右の配置がセンタリングしているものとみなし、隣接行集合を複合行として登録する。図１９に、複合行の例を示す。図１９の要素E-D101および、E-D102は、横方向の隣接関係によって抽出された複合行を表す。要素E-D103は、縦方向の隣接関係によって抽出された複合行を表す。以上の処理を、該当する行がなくなるまで繰り返す。このように、行の隣接関係を用いて、限定した形で新たな行の仮説を追加することで、全ての行の組合せを考慮する場合に比べ、計算量の爆発を抑えることができる。

次に、ステップP-F103において、ブロック抽出処理の開始行を選択する。ここで言う開始行の候補には、ステップP-F102で生成された複合行も含まれる。開始行の条件は以下の通りである。

条件500（ブロック抽出開始行の判定）
（１）ブロック抽出処理の対象となっていない行
（２）上隣接行をもたないか、上隣接行は全てブロック抽出済みである行
次に、処理P-F105において、B側隣接行があるかどうかチェックし、なければ処理P-F103に戻り、開始行の選択を続ける。

開始行が見つかると、ステップP-F106において、上下方向に隣接行の捜査を開始する。その際、上下に隣接する行の配置パターンに基づき、隣接配置パターンコードを設定する。図２０に、隣接配置パターンコードについての定義を示す。テーブルT-C100は、隣接配置パターンコードを表す。コード番号１、２は左揃えをあらわし、コード番号３、４は、右そろえパターンを表す。コード番号５は、並列パターンを表し、コード６、７は、センタリングパターンを表す。テーブルT-C200は、専属配置パターンコードを表す。コード番号１は、先頭の隣接配置パターンコードが４であり、その後の隣接配置パターンコード５番が連続している場合を表す。コード番号２は、隣接配置パターンコード５番が連続している場合を表す。コード番号３は、それ以外の連続パターンを表す。これらの配置コードは、ステップP-F107において、接続性を判定する際の情報の一つとして用いられる。

次に、ステップP-F107において、ブロック切断候補の生成を行う。図２１のテーブルT-D100に示す接続関係表に従い、行間の接続性判定を行う。
テーブルT-D100は、隣接配置コードペアの接続可能性マトリクスを表す。テーブルT-D100の縦軸は一つ手前の隣接配置コードを表し、横軸は、現在の接続パターンを表す。行 T-D101は、初期状態を表す。縦軸と横軸の交わる場所は、○の場合、接続可能なことを表し、×の場合接続できないことを表す。

条件600（ブロック接続条件）
（１）罫線をまたがない
（２）垂直距離が閾値以下
（３）行の属性が共通（フォント、行高さ）
（４）ブロック開始行の場合：B側隣接行との隣接配置コードが、１〜７の場合
それ以外：テーブルT-D100の隣接配置マトリクスの値が○である
隣接行が、以上の条件を満たす場合に、行間スペースの変化パターンを検証する。図２２のパターンE-E201、202、203に行間スペース変化パターンを示した。パターンE-E201は、行間がほぼそろっている場合を表す（事前に設定した閾値を用いる）。パターンE-202は、行間が広がる場合を表す。パターンE-203は、行間が狭まる場合を表す。ステップP-F108において、パターンE-E201の場合は接続パターンとして登録する。パターンE-E202の場合、行間E-E124で接続するケースと、切断するケースの両方を多重仮説として登録する。パターンE-202の場合、E-E125で接続するケースと切断するケースの両方を多重仮説として登録する。

以上の処理により、制約を満たす複数のブロック候補を生成する．図２２のE-E111、E-E112、E-E113、E-E114に、本処理によって生成されるブロックの多重仮説を示す。一見ひとつの段落のようにもみえるが、右揃えブロックE-E111と左揃えブロックE-E112に分解されるケース、もしくは、右揃えブロックE-E114に分割されるケース、カラムブロックE-E113に分割されるケースが考えられる。これらの複数候補は、以下のステップP-F109によりブロックの融合処理を行った結果、より面積の大きい構成要素を構成するものを優先的に残すことで、尤もらしいものを選択する。次に、全ての行について、上下方向の接続性の判定が終了したら（図１８のステップP-F104）、ステップP-F109に移る。ステップP-F109において、先に生成したブロック間の隣接関係の解析を行う。次に、ステップP-F110において、P-F109で生成したブロック間隣接関係を基に、接続関係の検証を行う。図２３に、ステップP-F108で記録したブロックの種別について示す。要素E-F101は、全体がセンター揃え（以降、CA）のブロックを表す。要素E-F102は、全体が左揃え（以降、LA）を表す、要素E-F103は、全体が右揃え（以降、RA）を表す。要素E-F104は、カラムタイプ(以降、RCLA)を表す。要素E-F105は、カラム先頭の可能性のある右揃え（以降、RCA）を表す。要素E-F106は、左右揃え（以降、CLRA）を表す。要素E-F107は、カラム末尾の可能性ある左揃え（以降、CLA）を表す。隣接関係の接続関係は、図２４のテーブルT-E100に従って行う。この段階で、T-E100は、縦軸が左（もしくは上）側のブロック、横軸が右（もしくは下）側のブロックを表す。縦軸と横軸が交わる部分は、各組合せの接続可能性と、接続した場合のブロックの解釈を表す。以上のように、ブロックの隣接関係を基に接続可能なブロックを接続し、接続領域の生成を行う。

次に、ステップP-F111において、矛盾するパターンの探索を行う。図２５および図２６に、矛盾パターンの例を示す。図２５は、ブロックE-G111のパターンがRCLAであり、E-G112のパターンがCLAであり、間に文字行が挟まっている場合を表す。この場合、前述した行接続判定処理P-F104（図１５）に戻り、文字間関係E-G101の接続関係のスコア計算を行う。但し、今回は、“近傍関係”の定義を、ブロックE-G111とブロックE-G112に含まれる関係E-G102〜E-G108と定義し、図１７のテーブルT-B100の、行T-B111の重みを用いる。行抽出処理の説明で説明したステップP-F104と同じスコア計算を行い、接続ラベルが”切断”と判定された場合、ブロックE-G111と、切断行の右側要素と、ブロックE-G112を結合し、ブロックタイプRCLAとして登録する。また、元のブロックE-G111およびE-G112は削除する。

図２６の要素E-H101は、別の矛盾パターンを表す。この場合、文字行E-H111を基点とするブロックパターンLAのブロックと、文字行E-H112を基点とするブロックパターンRAのブロックが存在する。この場合、両ブロックの要素であるE-H113について、以下の条件を満たす隣接関係を抽出し、前述した行接続判定処理P-F104（図１５）に戻り、接続関係のスコア計算を行う。但し、今回は、“近傍関係”の定義を、ブロックE-H111とブロックE-H112に含まれる関係E-G121〜E-G124と定義する。接続スコアの再計算を行う文字隣接関係は、行H-113内の文字隣接関係のうち、接続スコア（P-F104で計算）が一番低い関係（図２７の例では、E-H122）に対して行う。行抽出処理の説明で説明したステップP-F104と同じスコア計算を行い、接続ラベルが”切断”と判定された場合、E-H112で分断された左のブロックをブロックタイプLAとして登録し、分断された右のブロックを、ブロックタイプRAとして登録し、元のブロックE-H111および、E-H112を削除する。

このように、矛盾パターンの検出による行・ブロックの再定義と連接関係の解析を、矛盾パターンがなくなるまで繰り返す。

以上のように、多重仮説の生成パターンを限定して行うことで、処理速度の劇的な低下を避けつつ、多重仮説型のレイアウト解析を行うことができる。

＜階層構造、繰返し構造の抽出ステップ＞
文書中に現れる別のタイプのブロックとして、セクションやリストで表現される、階層構造および繰返し構造がある。セクションタイプの領域は、雑誌、論文に限らず、受発注仕様書などでも多用される。また、枠あり表構造も業務文書では多用される書式である。

本発明においては、枠構造の抽出については、交点座標を用いた枠抽出手法（特許第3936436号）を用いることができる。しかし、抽出した枠構造の中には、通常の表構造形式で項目ならびにデータが記載されているとは限らない。そういった場合にも、枠構造内で、セクション構造の解析が必要となる。特許02040474 「文書論理構造生成方法」に定義されたセクション抽出方法を用いることもできるが、この方法は、シングルカラム構造に対応しており、枠内セクション構造や、マルチカラムセクション構造を扱うことができない。また、通常セクションの文字列パターンにより、セクション行を判定する場合、扱うセクションのパターンが増加すると過剰照合するという問題がある。これを解決するため、最初にセクション文字列パターンによりセクション候補行を抽出したあと、セクション番号順列とレイアウトの整合性、枠内枠外位置関係を元に、セクション行として正しい組合せを選択する。

図１８のステップP-F101では、文字行の全ての組合せの方向と距離を計算し、図８の隣接行判定基準に基づき、隣接リストの更新を行った。その際、隣接関係ではない文字行間のペアについて、繰返し関係（もしくはセクション関係）に成りうるかどうかをチェックし、隣接関係とは別に、論理的な隣接関係として保持するで、セクション構造の抽出を行う。図３７に、階層・繰返し構造抽出ステップについて記述する。

図３７は、セクションパターンに基づく階層・繰返し構造抽出ステップの概要を示すフローチャートである。ステップP-K101では、各文字行について、事前に定義した、セクション正規表現とマッチするかチェックする。図３８に正規表現の例を示す。項目E-K101がセクション・リストのパターンを示し、項目E-K102が、分類IDを示す。正規表現にマッチする場合には、セクションパターンの分類（図３９の項目E-K102）を決め（ステップP-K103）、セクション番号相当部分を、順序文字列として抽出する（リストの場合にはリスト文字列部分）を抽出する（ステップP-K104）。次に、各行ペアについて、下記接続条件1100チェックする（ステップP-K105）。そして、以下の接続条件を満たせば、論理関係として記録し（ステップP-K106）、満たさなければ、ステップP-K101に戻る。抽出されたセクション構造同士が重なる場合、インデントパターンもしくは各セクション行の先頭位置のＹ座標の高さにより、入れ子構造を設定する。

条件1100（セクション関係成立条件：一回目）
（１）罫線をまたがない
（２）セクションパターンの分類IDが等しい
（３）セクション番号相当部分の順序が正しい（リストタイプの場合は文字が等しい）
（４）行ペアの位置関係が、下、右、右上のいずれか（セクション番号が抽出された場合は、増加の方向と一致すること）
条件（１）“罫線をまたがない”は、枠内セクション表現の場合には、成立しないことがある。このため、一回目にセクション構造の抽出に失敗した場合、以下のように条件を緩めてセクション構造の解析を行う。

条件1100（セクション関係成立条件：二回目）
（１）セクションパターンの分類IDが等しい
（２）数字が連続する（リストタイプの場合は文字が等しい）
（３）行ペアの位置関係が、下、右、右上のいずれか（セクション番号が抽出された場合は、増加の方向と一致すること）
以上の処理を全ての行について実施することで、図３７のパターンP-K101からP-K107に示したようなセクション構造を抽出することが可能となる。この中で、後に説明する、項目行基点型のメタデータ抽出処理に関係する構造は、パターンP-K101、P-K102、P-K103、P-K108のみである。文字列P-K111は、セクションタイトル部分に相当する。この場合、メタデータとして“業務内容”を抽出する必要があった場合、セクションの階層構造認識結果を用いて、文字列P-K112”(1)”以下の内容を正しく抽出することができる。

一旦セクション構造が抽出されると、入れ子のセクションやセクションとセクション内の項目行について、図１５のT-A111複合項目辞書と照合することにより、単一項目では抽出できないメタデータを抽出することが可能となる。

P-K103の例に示されるように、セクションタイトル“出願人”とセクション内のテーブル項目”氏名“の組合せにより、作成者情報を抽出することができる。

これまでのステップにより、文字行およびブロック抽出が終了すると、行のレイアウト特徴および言語特徴の設定を行う。

[項目行基点型のデータ探索]
まず、ユーザ辞書をもとに項目候補となる行を設定する。これは、図１５のテーブルT-A100およびテーブルT-A200の情報を用いる。テーブルT-A100は、各行が単語１エントリーに対応する。項目T-A101は、単語文字列を表す、項目T-A102は、その単語で定義されるメタデータの識別子を表す。項目T-A103は、その単語で定義されるメタデータが項目タイプなのかデータタイプなのかを規定する。項目タイプとは、それ自体が指定したメタデータとなるのではなく、隣接する行が、項目T-A102で指定したメタデータ候補となる単語のことを表す。データタイプとは、その単語を持つ行自体が、項目T-A102で指定したメタデータ候補となることを表す。項目T-A104は、項目T-A103が項目タイプだった場合に、データがどちら方向にあるかを指定する。0は右または下を意味し、1は左または上を意味する。項目辞書のうち、定義T-A111は、複合項目定義を表す。複合項目定義とは、複数の項目と候補となるメタデータを対応づけたもので、表形式で項目が階層的に配置されているもの、表形式で縦項目と横項目で指定されているデータ、セクションなどの階層的な論理構造において、セクションタイトルと、セクション内のテーブルの項目など、項目の組合せによってはじめてメタデータが判定できる場合を表す。

同様に、項目T-A201は、正規表現文字列を表す、項目T-A202は、その単語で定義されるメタデータの識別子を表す。項目T-A103は、その単語で定義されるメタデータが項目タイプなのかデータタイプなのかを規定する。項目T-A204は、項目T-A103が項目タイプだった場合に、データがどちら方向にあるかを指定する。0は右または下を意味し、1は左または上を意味する。

各文字行について設定された項目もしくはデータ特徴に基づき、項目基点型のデータ領域探索を行う。

図２７は、項目基点型のメタデータ領域抽出処理の概要を表すフローチャートである。このステップでは、前述したステップで、項目候補となる行を基点として、上下左右方向にメタデータを探索する。その際、拡張を続けるのか、拡張方向を変更するのか、拡張処理をストップするのかを決定する必要がある。本処理は、大きく分けて、項目-データ関係の初期化ステップP-G101と、孤立項目行の判定ステップP-G102と、文字行拡張ステップP-G103から構成される。ステップP-G101では、テーブルT-A100の項目T-A104の値に従い、以下の条件を満たす場合に、横方向の隣接関係の初期化を行う。

条件700（論理関係設定条件）
※以下の何れかの条件を満たす
（１）項目候補行であり、T-A104の値が0で右方向隣接行があり、基点項目行を含むブロックのRight座標（なければ行のRight座標）と、右隣接行を含むブロックのLeft座標（なければ右隣接行のLeft座標）が、文字行の幅以下
（２）項目候補行であり、T-A104の値が0で下方向隣接行があり、基点項目行を含むブロックのBottom座標（なければ行のBottom座標）と、下隣接行を含むブロックのTop座標（なければ下隣接行のLeft座標）が、文字行高さの2倍以下
（３）項目候補行であり、T-A104の値が1で左方向隣接行があり、基点項目行を含むブロックのLeft座標（なければ行のLeft座標）と、左隣接行を含むブロックのRight座標（なければ左隣接行のRight座標）が、文字行高さの2倍以下
（４）右隣接行を持ち、下線を共有する行の先頭である。
以上のいずれかの条件を満たす場合に、基点項目行と隣接行の間に、論理関係（項目-データ関係）を設定して記録する。
＜複合項目による照合＞
以上のステップでは、単一項目辞書を用いて基点となる文字行を設定したが、図１５の定義T-A111を用いて、異なる複数行について、複数の項目T-A121とT-A122それぞれとの照合結果を用いて、基点となる行を決定してもよい。
＜文字認識誤りへの対応＞
文書画像について、項目基点型のメタデータ抽出を行う場合、文字認識誤りがあると、うまく照合できない。とくに、短い文字“御中”について、編集距離１まで赦して照合を行うと、無関係な行に過剰に照合する問題がある。このため、各項目ごとに、ページ基準座標内での出現位置に基づき、照合可能な編集距離の閾値を変化させるようにする。例えば、“御中”であれば、ページ基準座標内の左上の位置で“？中”などと出現すれば、照合可能とするなど別途定義する。図４１に、定義の例を挙げる。

一通り、全ての項目行について論理関係の設定を終わった後、ステップP-G102において、孤立項目行の判定を行う。

図２８は、孤立項目行の判定処理の概要を示すフローチャートである。最初にステップP-H101において、全ての行について判定が終わったかどうか検証する。まだ未処理の行があれば、ステップP-H102において、孤立項目行の可能性のある行を抽出する。条件として、以下の条件を挙げる。

条件800（孤立行判定候補条件）
※以下の全ての条件を満たす
（１）項目候補行である
（２）隣接行との論理関係が未設定である。
（３）RCLAタイプのブロックに含まれない
（４）Tableタイプのブロックに含まれない
（５）Columnタイプのブロックに含まれない
（６）キャプション属性を持たない。
条件（６）は、図１５のテーブルT-A200のエントリーの一つである、T-A211で定義されているように、キャプチョンタイプの正規表現にマッチし、”CAPTION”という論理属性が付与されている場合を示す。この場合も孤立項目行とは判定せず、行の分割処理を行わない。

条件800を満たした行について、ステップP-H103において、項目辞書の照合位置を設定する。次に、ステップP-H104において、項目辞書照合による区切り判定を行う。

条件900（論理関係設定条件）
※以下の何れかの条件を満たす
（１）テーブルT-A100の項目T-A104の値が0であれば、項目辞書との照合位置の右側にまだ文字列が存在
（２）テーブルT-A100の項目T-A104の値が1であれば、項目辞書との照合位置の左側
まだ文字列が存在
区切り判定でOKとなった場合、ステップP-H105において文字行の分割を行い、論理関係（項目-データ関係）の設定を行う。以降は、次に述べる条件1000の接続条件に従い、データ行の拡張を行っていく。

[行のスコアリングによるメタデータ抽出]
以上のステップで説明した、項目基点型のメタデータ抽出に加えて、次に説明する処理では、各行のメタデータ性のスコアリングによるメタデータ抽出処理について説明する。本処理は、タイトル、作成日、作成者など、文書内に参考となる項目行が存在せず、配置だけで決まるデータを抽出する場合に必要となる。

図２９は、行のスコアリングによるメタデータ抽出処理の概要を示すフローチャートである。本処理は、大きく分けて、行の特徴設定ステップP-I104、静的特徴による重みづけステップP-I105、動的特徴による重みづけステップP-I106、メタデータ判定ステップP-I106から構成される。

ますステップP-I104では、各文字行のレイアウト特徴と言語特徴の設定を行う。
この際、これまでのブロック抽出処理で、カラムもしくはテーブル（図２４のTable、COLUMN）として判定された領域を除く。テーブル領域については、既存の表論理構造解析技術を用いて、テーブルの項目-データ対応関係からメタデータを抽出するものとする。図３０のテーブルE-I100に、設定特徴の例を示す。項目E-I101は、特徴量のIDを表す。項目E-I102は、特徴量の名前を表す。項目E-I103は、当該特徴量を持つと判定するための論理を表す。項目E-I104は、当該特徴を持つ時のスコアの計算方法を表す。テーブルE-I100の各行は、各特徴量の定義に対応する。

次に、ステップP-I105において、ステップP-I104にて設定した特徴量に基づき、メタデータスコアの計算を行う。これは、テーブルE-I100の項目E-I104で指定したスコアの線形和により計算する。このとき、どのメタデータの場合、どの特徴を用いるかについて別に定義したテーブルを用いる。
図３１に、メタデータごとの使用特徴を定義したテーブルの例を示す。抽出する各文字行に対して、ここで設定した特徴があるかどうかを分析してスコアリングし、最高スコアをつけたキーワードを、文書内のメタデータ識別子に対応するメタデータみなす。各特徴量のスコアは0〜255の値をとるように設定しているが、それに限らない。図３１において、項目E-J101は、抽出対象のメタデータ識別子を表す。項目E-J102は、図３０のテーブルE-I100の項目E-I101に対応するもので、特徴IDを表す。項目E-J103は、制約条件を指定するもので、“除外条件”と書かれている場合は、項目E-J102で指定した特徴をもってはいけないことを表す。また、”選択条件”と書かれている場合は、指定した特徴を持っていなくてはいけないことを表す。この場合、項目E-J102で指定した特徴は、スコア計算には用いない。項目E-J104は、各メタデータの各特徴の重みを表す。この重みと、テーブルE-I100の項目E-I104で計算したスコアの積を計算する。項目E-J105は、隣接行の特徴（以降、行bi-gram特徴と呼ぶ）を用いる場合の隣接方向指示を表す。この方向の隣接行が、次の項目E-J106で指定するメタデータ識別子の候補であれば、特徴有りとして、固定スコア（ここでは255）を足す。特徴量は複数設定することが可能なので、ここで設定した全特徴項目について線形和をとることで、文字行のメタデータ性のスコアを計算する。以上が、静的特徴に基づくメタデータ性のスコア計算ステップである。

次に、ステップP-I106において、動的特徴に基づくメタデータ性のスコア計算を行う。このステップでは、まずステップP-I105で計算した各メタデータのうち、指定閾値以上ものをメタデータ候補と考え、テーブルE-J105およびE-J106で指定される、行bi-gram特徴を持つかどうか、全ての行についてスコアの再計算を行う。この時点で、各行のメタデータ性の組合せによるスコア付けが完了し、どの組合せが最適なスコアとなるかが計算される。

最後にステップP-I107において、各メタデータ行について、データ範囲の拡張処理を行う。データの拡張処理は、まず右方向に拡張したあと、下方向への拡張を行う。拡張処理は、距離判定条件とメタデータスコア判定条件と形状判定条件の３条件に基づき行われる。

条件1000（メタデータ行の拡張処理）
※以下の（１）（２）（３）の条件を満たす
（１）距離判定条件
・横拡張条件：（あ）or（い）の条件を満たす。
（あ）基点メタデータ行のRight座標と、右隣接行を含むブロックのLeft座標（なければ右隣接行のLeft座標）が、文字行高さの2倍以下である
（い）基点メタデータ行と右隣接行が、下側に共通のセクション、テーブル、もしくはカラムブロックを共有する。
・縦拡張条件：基点項目行のBottom座標と、下隣接行を含むブロックのTop座標が、文字行高さの2倍以下
（２）メタデータスコア判定条件
・隣接行のメタデータのスコアが基点メタデータ行のスコアの1/3以上
（３）形状判定条件
・縦横に拡張後のブロック形状が、LA、CA、RAのいずれかになる。
（４）関連のないメタデータ領域ではない
・拡張先の行が、既に項目-データ関係を持っている場合拡張しない
・但し、別表で定義された上位下位関係にあるメタデータの場合は階層性を記録して拡張する．

条件（１）の横拡張条件（い）は、図３３のようなパターンを想定している。図３３において、今文字行P-K101をタイトル性のスコアが高い行として選択した状態を表す（ステップP-I106終了後）。このときタイトルの右側隣接行P-K102は、横拡張条件（あ）では接続しない。しかし、文字行P-K101およびP-K102は、共にセクションブロックP-K110を共有するため、（１）距離条件を満たす。以上の条件により、メタデータスコアの値が閾値以上であり、下側にテーブル、セクション、カラムブロックを共有することで、メタデータの拡張条件を満たすことができる。

条件（２）のメタデータスコア判定条件は、必要以上の拡張を避けるため、メタデータ性をある程度もつ隣接行に限って拡張をすることを意味する。これにより、間違った領域拡張を防ぐことができる。

条件（３）の形状判定条件は、条件（１）（２）によりメタデータ領域を拡張していく過程で、ブロックとしての形状がくずれていないかをチェックする。これにより、間違った領域拡張を防ぐことができる。

条件（４）の判定条件は、上述した2種類のメタデータ判定処理により、既に何らかのメタデータとして記録されている場合に、拡張しないようにする。但し、図４０に定義するメタデータオントロジー辞書に従い、何らかの論理関係を持ちうる場合、拡張を行う。例えば、今メタデータとして作成元領域を抽出している場合を考える。作成元情報には、会社名の他、担当者名、電話番号等がその下に連続して記載されていることがある。この場合、「Tel：0123-456-789」などのように、電話番号領域がメタデータ領域として抽出済みの場合がある。条件（４）をそのまま適用すると、作成元メタデータとして含まれないことになる．しかし、図４０の行E-M121を参照すると、AUTHOR（作成元）とTEL（電話番号）が親子関係になりうることが示されている．そこで、すでに抽出済みのメタデータ”TEL”についても、メタデータ”AUTHOR”の一部として拡張して取り込む。その場合、抽出するメタデータの構造は、階層構造を持つことになる。

以上の処理により、行のスコアリングによるメタデータ抽出を実現できる。

[XMLファイル出力]
文書から抽出したメタデータは、図３４に示すようなXML形式により外部ファイルとして、もしくはデータベースに出力する。図５の文字列P-L101は、メタデータ抽出処理を行ったファイル名を表す。文字列P-L102は、抽出したメタデータ名を表す。文字列P-L103は、抽出したメタデータ文字列を表す。タグP-L111は、項目（あれば）とメタデータの一つのペアを表しており、メタデータが複数種類もしくは同じメタデータについて複数個抽出されれば、抽出された数だけ、タグP-L111内の表現形式によって出力される。これにより、仕様書、納品書、契約書、見積書など互いに記載されている情報が異なる書類についても、XMLデータベースなどを利用することにより、まとめてデータ管理することが可能となる。

[画面表示]
その他、図３５に示すような様式により、複合機の画面上もしくはＰＣ画面上で認識結果を表示してもよい。表示P-M101はタイトルメタデータを表す。表示P-M102は、番号メタデータを表す。表示P-M103は、作成日メタデータを表す。表示P-M104は、宛先メタデータを表す。表示P-M106は作成者（発行者）メタデータを表す。そP-M105は、担当者メタデータをあらわす。図３５の各表示は、図面の都合上、モノクロ破線で表示しているが、実際の画面表示では、メタデータごとに色を定義し、その色の枠で囲むなどして抽出結果をユーザに示すことが可能である。抽出誤りがあれば、タッチパネルやマウス操作によるドラッグ＆ドロップ操作により、枠の移動、枠の範囲補正をしてもよい。また、このような操作でたまった文書とメタデータの正解例を蓄積し、“行のスコアリングによるメタデータ抽出”で説明した、メタデータ別の使用特徴量の重みづけ（図３１の項目E-J104）表を人手もしくはCRF(Conditional Random Field)等既存の機械学習手法を用いて更新してもよい。

本発明の実施形態によるメタデータ付与装置の概略構成を示す図である。座標及び隣接関係の説明図である。メタデータ抽出フローの全体フローチャートを示す図である。領域分割によるページ基準座標抽出の概要を示したフローチャートである。文書領域の縦方向分割処理の概要を示すフローチャートである。射影成分の例を示す図である。文字行抽出処理の概要を表すフローチャートである。複数のターゲット要素があった場合の隣接関係の定義方法を示す図である。隣接関係のラベル付け処理の概要を表すフローチャートである。隣接関係のラベル付け処理の概要を表すフローチャートである。隣接関係のラベル付け処理の続きを表すフローチャートである。隣接関係のラベル付け処理の続きを表すフローチャートである。文字の隣接関係のラベルの例を示す図である。縦（または横）行の抽出処理の概要を表すフローチャートである。単語−メタデータ対応辞書の例を示す図である。近傍範囲の定義を説明する説明図である。隣接関係のラベルの接続性の判定について説明する説明図である。ブロック領域抽出処理の概要を表すフローチャートである。複合行の例を示す図である。隣接配置パターンコード、連続配置パターンコードについての定義を示す図接続関係表を示す図である。配置パターンコードと距離閾値を示す図である。ブロックの種別について示す図である。配置パターンコードと距離閾値を示す図である。矛盾パターンの例を示す。矛盾パターンの例を示す。項目基点型のメタデータ領域抽出処理の概要を表すフローチャートである。孤立項目行の判定処理の概要を示すフローチャートである。行のスコアリングによるメタデータ抽出処理の概要を示すフローチャートである。設定特徴の例を示す図である。メタデータごとの使用特徴を定義したテーブルの例を示す図である。メタデータ拡張処理に関するフローチャートを示す図である。パターン例を示す図である。出力ファイル例を示す図である。出力画面例を示す図である。抽出したメタデータの例を示す図である。セクションパターンの分類例を示す図である。正規表現の例を示す図である。セクション文字の順序を示す図である。メタデータオントロジーを示す図である。定義例を示す図である。

符号の説明

１０・・・入力支援装置、１１・・・入力装置、１２・・・表示装置、１３・・・ＣＰＵ、１４・・・印刷装置、１５・・・ワークエリア、１６・・・情報保持手段、１７・・・演算部、１９・・・通信ネットワーク

Claims

文書情報を入力可能な入力装置と、情報保持手段と、演算手段と、出力手段を少なくとも有し、文字の集合からなる文字行と文字行の集合からなるブロックの配置関係と、文書中の出現位置に基づき、メタデータを抽出する文書処理装置において、
上記演算手段は、
入力された上記文書情報から水平、垂直方向の罫線の外接矩形座標を抽出し、当該抽出された水平、垂直方向の罫線の外接矩形座標を基に、枠構造の抽出を実行し、要素間の隣接関係を判定して各要素の上下左右方向の隣接要素を抽出し、上記隣接要素の情報を基に、縦横の文字行を抽出して配置関係の解析を実行し、解析した文字行間の配置関係に基づき、行の集合であるブロックを抽出して予め定義される区分に分類し、当該抽出されたブロックについて矛盾パターン判定処理を実行し、ブロックの種別、レイアウト特徴及び行の文字列情報に基づき、各文字行の言語およびレイアウトの特徴量を夫々設定し、当該設定した特徴量と予め上記情報保持手段に対応付けられて記憶される特徴量とメタデータ識別情報とに基づいてメタデータを抽出し、当該メタデータを出力手段に出力することを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
上記各要素の上下左右方向の隣接要素の情報を基に縦横の文字行を抽出する処理は、一旦抽出した縦横行の配置関係の解析により決まるブロックにより決定される近傍の隣接関係の情報を合わせて用いることを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
上記演算手段は、上記外接矩形座標を抽出するよりも前に、上記文書情報が複数ページから構成されているか否かの判定を実行することを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
上記ブロックの隣接関係に基づき、文字行の再切断判定を実行し、テーブル、カラム領域を判定し、判定された論理構造と矛盾しないように、項目候補行を基点とするメタデータの探索を行うことを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
上記情報保持手段は所定の項目辞書を備え、
上記演算部は、上記項目辞書との照合により、メタデータ項目行を特定し、項目の種類に基づき、右または下方向の隣接文字行が対応するデータ領域であるかを判定し、あるいは左または上方向の隣接文字行が対応するデータ領域であるかを判定し、メタデータを抽出し、対象となる上記文書情報の文字認識結果に誤読・不読があって項目辞書のマッチングがいかない場合に、上記項目辞書ごとに照合対象行のページ基準座標内の位置によって、同じ編集距離でも照合度がことなるように設定し、この照合度の閾値により、項目辞書とマッチしたかどうかを判定した上で、メタデータを抽出することを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
上記演算部は、予め上記情報保持手段に記憶されるセクション文字列パターン情報に基づき、上記メタデータからセクション候補行を抽出し、
当該セクション候補行について、セクション番号順列とレイアウトの整合性、罫線を跨がないという制約を元に、セクション行を組合せてセクション文字列パターンとして抽出する処理を実行することを特徴とする文書処理装置。
請求項６に記載の文書処理装置において、
上記セクション文字列パターンを抽出する処理において、
上記セクション番号順列について不整合パターンが抽出された場合、上記罫線を跨がないという制約を外し、再度セクション抽出解析を行うことを特徴とする文書処理装置。
請求項６または７に記載の文書処理装置において、
抽出したセクション文字列パターンについて、セクション構造を解析し、セクションタイトルを有するか、段落かを判定し、項目とデータの関係を抽出することを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
各文字行の言語およびレイアウトの特徴量を夫々設定し、当該設定した特徴量と予め上記情報保持手段に対応付けられて記憶される特徴量とメタデータ識別情報とに基づいてメタデータ性のスコアリングを行い、メタデータを抽出した後、左右方向の隣接文字行についてもメタデータ性を判定し、その二つの行が、下方向の隣接要素としてテーブルもしくはカラムもしくはセクションブロックを共有した場合に、その二つの行を一つのメタデータ領域として統合することを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
各文字行の言語およびレイアウトの特徴量を夫々設定し、当該設定した特徴量と予め上記情報保持手段に対応付けられて記憶される特徴量とメタデータ識別情報とに基づいてメタデータ性のスコアリングを行い、メタデータを抽出した後、下方向の行について、既に別のメタデータであるとして記録されているかどうか判定し、かつそれが現在拡張中のメタデータと親子関係になり得るかどうか判定し、ならない場合拡張処理を止め、なる場合、親子関係であることを記録して拡張を続けることを特徴とする文書処理装置。
請求項１に記載の文書処理装置において、
上記情報保持手段は所定の項目辞書を備え、
上記演算部は、上下左右に配置された複数の行各々について、上記項目辞書との照合を行い、その組合せが特定のメタデータと対応づけられる場合に、該複数行をメタデータ項目行として特定し、項目の種類に基づき、右または下方向の隣接文字行が対応するデータ領域であるかを判定し、あるいは左または上方向の隣接文字行が対応するデータ領域であるかを判定し、メタデータを抽出することを特徴とする文書処理装置。