JP2010108208A - 文書処理装置 - Google Patents
文書処理装置 Download PDFInfo
- Publication number
- JP2010108208A JP2010108208A JP2008279070A JP2008279070A JP2010108208A JP 2010108208 A JP2010108208 A JP 2010108208A JP 2008279070 A JP2008279070 A JP 2008279070A JP 2008279070 A JP2008279070 A JP 2008279070A JP 2010108208 A JP2010108208 A JP 2010108208A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- character
- line
- item
- adjacent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】単語とメタデータ識別子の対応関係を記述したメタデータ単語辞書と、複数の単語の組合せとメタデータ識別子の対応関係を記述した複合項目辞書と、メタデータが持つと思われる特徴リストを記載したメタデータ特徴辞書と、メタデータ同士の並列性や階層性を記載したメタデータオントロジーと、抽出対象とするメタデータを指定した処理対象メタデータ指定辞書を用意する。第1の方法では、項目行を基点とし、罫線による表や行の整列、セクションのレイアウトに基づき、対応するデータが存在する方向を判定し、メタデータ行を抽出する方法である。第2の方法では、メタデータ特徴辞書に基づき、文書中の各行のメタデータらしさのスコアを計算し、スコアの高い行を基点に、メタデータの領域を適切な範囲で拡張する方法である。
【選択図】図1
Description
メタデータ特徴辞書に基づき、文書中の各行のメタデータらしさのスコアを計算し、スコアの高い行を基点に、メタデータの領域を適切な範囲で拡張する方法である。
メタデータ抽出処理では、2-nup文書などを処理する際に、ページの外接矩形の基準を補正するため、文書内の特徴的な空白矩形領域の探索を行う。次に、抽出した文字間および文字罫線間(空白矩形も含む)の隣接関係に基づき1次行抽出を行う。また、垂直罫線、水平罫線の交差パターンに基づき、枠構造の抽出を行う(枠ありテーブル)。
図1は、本発明の実施形態による文書処理装置の概略構成を示す図である。ここでは、電子文書の他、複合機等で電子化した紙文書を想定している。
<用語の説明>
図2に、以降の処理ステップの説明で用いる、“座標”、“隣接関係”についての説明を行う。図2−1は、各要素(テキスト、罫線、イメージ)の外接矩形座標を表す。図において、Leftは左の座標値、Rightは右の座標値、Topは上の座標知、Bottomは下の座標値を表す。以降の処理では、左下を原点とする座標系で大小関係の計算を行う。座標系が異なる場合(例えば、左上原点の場合、Topの値よりBottomの値の法が大きくなる)、大小比較を変更することで、同じ処理で動作可能である。
・X=上の場合:(1)基準要素の(Top+Bottom)/2<ターゲット要素の(Top+Bottom)/2、
(2)ovlpH>MAX(基準要素幅、ターゲット要素幅)/2
・X=下の場合:(1)基準要素の(Top+Bottom)/2>ターゲット要素の(Top+Bottom)/2、
(2)ovlpH>MAX(基準要素幅、ターゲット要素幅)/2
・X=左の場合:(1)基準要素の(Right+Left)/2>ターゲット要素の(Right+Left)/2、
(2)ovlpV>MAX(基準要素高さ、ターゲット要素高さ)/2
・X=右の場合:(1)基準要素の(Right+Left)/2<ターゲット要素の(Right+Left)/2、
(2)ovlpV>MAX(基準要素高さ、ターゲット要素高さ)/2
・X=左上の場合:(1)基準要素の(Right+Left)/2>ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2<ターゲット要素の(Top+Bottom)/2
・X=右上の場合:(1)基準要素の(Right+Left)/2<ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2<ターゲット要素の(Top+Bottom)/2
・X=左下の場合:(1)基準要素の(Right+Left)/2>ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2>ターゲット要素の(Top+Bottom)/2
・X=右下の場合:(1)基準要素の(Right+Left)/2<ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2>ターゲット要素の(Top+Bottom)/2
図2−3は、要素間に重なりがある場合の隣接関係を表した模式図である。例えば、基準行に対し、右行となるのは、垂直方向の座標の重なりが十分あり、ターゲット座標の左右中心座標が、基準座標の左右中心座標よりも右側にある場合である。以下に、各方向にたいする判定基準を示す。
・X=上の場合:(1)ovlpH>ターゲット要素の(Left+Right)/2、
(2)基準要素の(Top+Bottom)/2<ターゲット要素の(Top+Bottom)/2
・X=下の場合:(1)ovlpH>ターゲット要素の(Left+Right)/2、
(2)基準要素の(Top+Bottom)/2>ターゲット要素の(Top+Bottom)/2
・X=左の場合:(1)ovlpV>ターゲット要素の(Top+Bottom)/2、
(2)基準要素の(Right+Left)/2>ターゲット要素の(Right+Left)/2
・X=右の場合:(1)ovlpV>ターゲット要素の(Top+Bottom)/2、
(2)基準要素の(Right+Left)/2<ターゲット要素の(Right+Left)/2
・X=左上の場合:(1)基準要素の(Right+Left)/2>ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2<ターゲット要素の(Top+Bottom)/2
・X=右上の場合:(1)基準要素の(Right+Left)/2<ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2<ターゲット要素の(Top+Bottom)/2
・X=左下の場合:(1)基準要素の(Right+Left)/2>ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2>ターゲット要素の(Top+Bottom)/2
・X=右下の場合:(1)基準要素の(Right+Left)/2<ターゲット要素の(Right+Left)/2、
(2)基準要素の(Top+Bottom)/2>ターゲット要素の(Top+Bottom)/2
<メタデータ抽出の全体フロー>
図3は、本発明におけるメタデータ抽出フローの全体フローチャートである。
ページ基準座標抽出処理P-A301では、集約印刷(2-nup等)された文書についても、正しくメタデータ抽出が行えるように、入力画像が複数ページから構成されているか否かの判定を行う。詳細については、図4以降で述べる。枠抽出処理P-A302では、画像や電子文書から抽出した水平、垂直方向の罫線の外接矩形座標を基に、枠構造の抽出を行う。枠構造の抽出については、交点座標を用いた枠抽出手法(特許第3936436号)を用いることができる。要素間の隣接関係判定処理P-A303では、各要素の上下左右方向の隣接要素の抽出を行う。隣接方向の定義は前述した通りである。方向定義にしがたい、隣接要素リストを抽出するステップについては、以下で説明する。文字行抽出処理P-A304では、P-A303で抽出した隣接関係情報を基に、縦横の文字行の抽出を行う。文字行間の配置関係解析P-A305では、行と行の整列関係、インデント関係といった物理的な配置関係の解析を行う。ブロック抽出処理P-A306では、P-A305で解析した文字行間の関係に基づき、ブロック(行の集合)を抽出する。このブロックは、論文等のアブスト領域や、段落領域、セクション領域、証憑類の宛先情報領域、作成者情報領域に対応する。但し、この段階では、論理的に正しい境界で分割されていなくてもよい。矛盾パターン判定処理P-A307では、処理P-A306で抽出したブロックと、各ブロック左揃え、右揃え、中心揃え特徴を基に、矛盾する行がないか、判定を行う。行特徴設定P-A308では、処理P-A306で抽出したブロックの種別(カラム、セクション、テーブル等)や、行高さ、センタリング等のレイアウト特徴及び行の文字列に基づき、各文字行の言語およびレイアウト特徴量を設定する。
<基準座標の調整>
図3の処理P-A310では、ページの右上、左上、センタリング等、ページ内の位置に関する特徴量の設定を行う。従って、2-up、4-up等の文書を対象に、文字行のメタデータスコア計算により各種メタデータを判定する場合、レイアウト特徴量計算の基準となるページ座標の補正が必要となる。図4〜6を用いて、ページ基準座標の設定フローについて説明する。
(1)射影の空白領域の幅が、用紙の横幅の0.45倍以上
(2)用紙の横方向中心位置より右側に存在
余白パターンが見つかった場合、ページ座標の右座標を、余白座標の左座標に設定する。実際には余白領域にヘッダ、フッタ、ページ番号のみ印刷されている場合もあり、空白領域として取れない可能性もある。その場合、射影成分のベースラインを決定し、一定の閾値以上の頻度値(図6の各ヒストグラムの高さに相当する)以上のもので、上記空白パターンを探すようにしてもよい。ベースラインの設定は、例えば、ヒストグラムの高さが最も高い領域の値の1/10に設定する、といった方法が取れる。最後に、センター区間P-C105文書領域の横方向分割処理(図4のステップP-B102)は、縦方向の分割処理と同じ方法を、要素のTop座標およびBottom座標を用いてやればよい。
<行抽出ステップ>
行の抽出は、隣接情報だけでは決定できない。あらゆる接続、分割を検証し、対称性や、整列性から尤もらしい区切りを見つけることが望ましいが、一般には組合せ爆発を起こすため、全ての組合せを試すことはできない。
[ステップP-L100:隣接文字リストの取得処理]
本処理では、 基準となる文字とその他の全ての文字について、以下の基準を満たす隣接文字リストを取得する。以降、基準となる文字を基準文字、その他の文字をターゲット文字と呼ぶ。隣接要素リストは、以下の基準で求める。
(1)右隣接要素であるもののうち、ターゲット要素への距離(Left1-Right0)が最小のもの。
(2)最小の垂直距離との差が、閾値以下(0.76pt以下)のものは最小とみなす。
[ステップP-L200:隣接関係のラベル付け処理]
本処理では、ステップP-L100で取得した、各文字のT(上)、B(下)、L(左)、R(右)、4方向の隣接関係について、文字行抽出で参照するための特徴ラベルを付与する。
条件100(横行開始文字判定):
(1)左方向に隣接文字をもたない。
(2)左方向に複数の隣接文字を持つ。
(3)左方向に一つだけ隣接文字を持つが、その文字は右方向に複数の隣接文字を持つ。
(4)左方向に一つだけ隣接文字を持つが、その文字は既に他の行の要素として抽出済み。
(1)下方向にのみ文字隣接関係が存在しない(罫線で囲まれている場合等)。
次に、ステップP-D202において、下隣接関係のラベル付け処理を行う。これは、垂直方向の文字間の距離変化や、水平方向の文字間距離との関係、色情報、形態素情報などに基づき決定される。処理の詳細は、座標系を90度変えただけで、ステップP-D202と同じ処理を行う。
(1)ケース1:dist1とdist2の差が5.34pt未満
隣接関係の距離変化ラベルを”R_SAME”とする。
(2)ケース2:dist1 - dist2 > 5.34
隣接関係の距離変化ラベルを”R_SMALLER”とする。
(3)ケース3:dist2 - dist1 > 5.34
隣接関係の距離変化ラベルを”R_LARGER”とする。
隣接文字の隣接要素がない場合は、ラベルを”R_SAME”とする。次に、ステップP-E105において、逆方向の隣接方向に文字があるかどうかチェックする。ある場合、その文字間距離(dist0)を取得する。逆方向に隣接文字がない場合は、ステップP-E110において、逆隣接側の距離変化ラベルを”L_SAME”とする。 距離変化ラベルの設定方法は、前述の場合と同じで、以下の通りである。
(1)ケース1:dist0とdist1の差が5.34pt未満
隣接関係の距離変化ラベルを”L_SAME”とする。
(2)ケース2:dist0 - dist1 > 5.34
隣接関係の距離変化ラベルを”L_SMALLER”とする。
(3)ケース3:dist1 - dist0 > 5.34
隣接関係の距離変化ラベルを”L_LARGER”とする。
(1)ケース1:dist1とdist3の差が5.34pt未満
隣接関係の距離変化ラベルを”PPD_SAME”とする。
(2)ケース2:dist3 - dist1 > 5.34
隣接関係の距離変化ラベルを”PPD_SMALLER”とする。
(3)ケース3:dist1 - dist3 > 5.34
隣接関係の距離変化ラベルを”PPD_LARGER”とする。
同様に、逆の直交方向要素であるE-B212についても距離変化ラベルを設定する。
以下のいずれかの条件を満たす。
(1)E-B301とE-B302が丸数字であり、数字が1増加している。
=> ラベル”PARA”を設定。
(2)E-B301とE-B302が、ユーザ辞書に”PARA文字”として登録した文字である。
(例えば、○、★、◎等)。 => ラベル”PARA”を設定。
(3)E-B301とE-B302が、ユーザ辞書に”PARA-CAND文字”として登録した文字で
あり(例えば、“−”、“・”、“*”等)、E-B301が、前述した、横行開始条件100を
満たす。 => ラベル”PARA”を設定。
(1)水平方向の隣接関係の場合:高さが文字高さ以上
(2)垂直方向の隣接関係の場合:幅が文字幅以上
次に、ステップP-E304において、形態素解析境界と一致するかどうかを判定する。その際、基準文字の左方向(もしくは上方向)に隣接関係をたどり、行開始候補となる文字を見つけ、基準文字の右方向(もしくは下方向)に隣接関係をたどり、隣接要素がなくなるか、複数現れる文字を見つけ、その間の文字について形態素解析処理を実行する。その結果、基準文字の右方向(もしくは下方向)の隣接関係が、形態素の区切りと一致した場合、ラベル”MA_SEG”を設定し、それ以外の場合は、ラベル”MA_IN”を設定する。次に、ステップP-E305において、ユーザ定義正規表現による文字列境界ラベルの設定を行う。ユーザ定義正規表現とは、図15のテーブルT-A200で定義されるものである。図15において、項目T-A201は、正規表現定義フィールドを表す。図15についての説明は、別途行う。
[項目T-A202は、可能性のあるメタデータの識別子を表す。項目T-A203は、定義された正規表現が、当該識別子の“項目名”パターンの定義なのか“値”パターンの定義なのかを指定する。]
形態素解析を実施した場合と同様に、基準文字を含む文字列に対してユーザ定義辞書(図15)に定義した正規表現との照合を行い、基準文字とその隣接文字(右もしくは下)が同じ正規表現に照合した場合、ラベル”REG_IN”を設定する。
図14は、図7の文字行抽出ステップの最後の処理、縦(または横)行の抽出処理の概要を表すフローチャートである。ここでは、ステップP-L200で設定した、文字間隣接関係のラベルに基づき、行の接続・切断関係の判定を行う。まず、ステップP-F101において、処理対象文字の右方向(縦行の場合は下方向)に、隣接文字が一つだけあるかどうか判定する。Noの場合、文字行の境界と判断し、処理を終了する。Yesの場合、隣接文字が既に他の行の要素でないか判定する。Noの場合、文字行の境界と判断し、処理を終了する。Yesの場合、処理対象の隣接関係と直交方向の関係ラベルを参照し、近傍範囲を設定する。近傍範囲の定義について、図16の例で説明する。図16において、隣接関係E-C100が現在接続判定中の文字間隣接関係であるとする。この時、隣接文字E-C123の直交方向の隣接関係E-C101、E-C102、E-C103のラベルをチェックし、距離変化のラベルが、”LARGER”もしく”DIST_MAX”を持たない範囲を近傍範囲と定義する。そして、近傍範囲の文字の左方向(縦行の場合は上方向)の隣接関係を、”近傍関係”と定義する。従って、隣接関係E-C102およびE-C101のラベルが“SAME”であり、隣接関係E-C103およびE-C104の関係が”LARGER”であれば、隣接関係E-C100の近傍関係は、隣接関係E-C111とE-C112になる。また、場合によっては、隣接要素E-C123が直交方向に隣接文字を持たない可能性がある(要素E-C122が存在しない場合)。その場合、隣接関係のラベルが、”LARGER”か”DIST_MAX”を持たない間、右方向(縦行の場合下方向)に隣接関係をたどり、最初に直交方向の文字が現れた文字要素を用いて、同じ手順で近傍関係の設定を行う。
以上で、近傍関係の定義の説明を終わる。
次に、図3の処理P-A306のブロック領域抽出処理について説明する。
(1)ブロック抽出処理の対象となっていない行
(2)上隣接行をもたないか、上隣接行は全てブロック抽出済みである行
次に、処理P-F105において、B側隣接行があるかどうかチェックし、なければ処理P-F103に戻り、開始行の選択を続ける。
テーブルT-D100は、隣接配置コードペアの接続可能性マトリクスを表す。テーブルT-D100の縦軸は一つ手前の隣接配置コードを表し、横軸は、現在の接続パターンを表す。行 T-D101は、初期状態を表す。縦軸と横軸の交わる場所は、○の場合、接続可能なことを表し、×の場合接続できないことを表す。
(1)罫線をまたがない
(2)垂直距離が閾値以下
(3)行の属性が共通(フォント、行高さ)
(4)ブロック開始行の場合:B側隣接行との隣接配置コードが、1〜7の場合
それ以外:テーブルT-D100の隣接配置マトリクスの値が○である
隣接行が、以上の条件を満たす場合に、行間スペースの変化パターンを検証する。図22のパターンE-E201、202、203に行間スペース変化パターンを示した。パターンE-E201は、行間がほぼそろっている場合を表す(事前に設定した閾値を用いる)。パターンE-202は、行間が広がる場合を表す。パターンE-203は、行間が狭まる場合を表す。ステップP-F108において、パターンE-E201の場合は接続パターンとして登録する。パターンE-E202の場合、行間E-E124で接続するケースと、切断するケースの両方を多重仮説として登録する。パターンE-202の場合、E-E125で接続するケースと切断するケースの両方を多重仮説として登録する。
文書中に現れる別のタイプのブロックとして、セクションやリストで表現される、階層構造および繰返し構造がある。 セクションタイプの領域は、雑誌、論文に限らず、受発注仕様書などでも多用される。また、枠あり表構造も業務文書では多用される書式である。
(1)罫線をまたがない
(2)セクションパターンの分類IDが等しい
(3)セクション番号相当部分の順序が正しい(リストタイプの場合は文字が等しい)
(4)行ペアの位置関係が、下、右、右上のいずれか(セクション番号が抽出された場合は、増加の方向と一致すること)
条件(1)“罫線をまたがない”は、枠内セクション表現の場合には、成立しないことがある。このため、一回目にセクション構造の抽出に失敗した場合、以下のように条件を緩めてセクション構造の解析を行う。
(1)セクションパターンの分類IDが等しい
(2)数字が連続する(リストタイプの場合は文字が等しい)
(3)行ペアの位置関係が、下、右、右上のいずれか(セクション番号が抽出された場合は、増加の方向と一致すること)
以上の処理を全ての行について実施することで、図37のパターンP-K101からP-K107に示したようなセクション構造を抽出することが可能となる。この中で、後に説明する、項目行基点型のメタデータ抽出処理に関係する構造は、パターンP-K101、P-K102、P-K103、P-K108のみである。文字列P-K111は、セクションタイトル部分に相当する。この場合、メタデータとして“業務内容”を抽出する必要があった場合、セクションの階層構造認識結果を用いて、文字列P-K112”(1)”以下の内容を正しく抽出することができる。
まず、ユーザ辞書をもとに項目候補となる行を設定する。これは、図15のテーブルT-A100およびテーブルT-A200の情報を用いる。テーブルT-A100は、各行が単語1エントリーに対応する。項目T-A101は、単語文字列を表す、項目T-A102は、その単語で定義されるメタデータの識別子を表す。項目T-A103は、その単語で定義されるメタデータが項目タイプなのかデータタイプなのかを規定する。項目タイプとは、それ自体が指定したメタデータとなるのではなく、隣接する行が、項目T-A102で指定したメタデータ候補となる単語のことを表す。データタイプとは、その単語を持つ行自体が、項目T-A102で指定したメタデータ候補となることを表す。項目T-A104は、項目T-A103が項目タイプだった場合に、データがどちら方向にあるかを指定する。0は右または下を意味し、1は左または上を意味する。項目辞書のうち、定義T-A111は、複合項目定義を表す。複合項目定義とは、複数の項目と候補となるメタデータを対応づけたもので、表形式で項目が階層的に配置されているもの、表形式で縦項目と横項目で指定されているデータ、セクションなどの階層的な論理構造において、セクションタイトルと、セクション内のテーブルの項目など、項目の組合せによってはじめてメタデータが判定できる場合を表す。
※以下の何れかの条件を満たす
(1)項目候補行であり、T-A104の値が0で右方向隣接行があり、基点項目行を含むブロックのRight座標(なければ行のRight座標)と、右隣接行を含むブロックのLeft座標(なければ右隣接行のLeft座標)が、文字行の幅以下
(2)項目候補行であり、T-A104の値が0で下方向隣接行があり、基点項目行を含むブロックのBottom座標(なければ行のBottom座標)と、下隣接行を含むブロックのTop座標(なければ下隣接行のLeft座標)が、文字行高さの2倍以下
(3)項目候補行であり、T-A104の値が1で左方向隣接行があり、基点項目行を含むブロックのLeft座標(なければ行のLeft座標)と、左隣接行を含むブロックのRight座標(なければ左隣接行のRight座標)が、文字行高さの2倍以下
(4)右隣接行を持ち、下線を共有する行の先頭である。
以上のいずれかの条件を満たす場合に、基点項目行と隣接行の間に、論理関係(項目-データ関係)を設定して記録する。
<複合項目による照合>
以上のステップでは、単一項目辞書を用いて基点となる文字行を設定したが、図15の定義T-A111を用いて、異なる複数行について、複数の項目T-A121とT-A122それぞれとの照合結果を用いて、基点となる行を決定してもよい。
<文字認識誤りへの対応>
文書画像について、項目基点型のメタデータ抽出を行う場合、文字認識誤りがあると、うまく照合できない。とくに、短い文字“御中”について、編集距離1まで赦して照合を行うと、無関係な行に過剰に照合する問題がある。このため、各項目ごとに、ページ基準座標内での出現位置に基づき、照合可能な編集距離の閾値を変化させるようにする。例えば、“御中”であれば、ページ基準座標内の左上の位置で“?中”などと出現すれば、照合可能とするなど別途定義する。図41に、定義の例を挙げる。
※以下の全ての条件を満たす
(1)項目候補行である
(2)隣接行との論理関係が未設定である。
(3)RCLAタイプのブロックに含まれない
(4)Tableタイプのブロックに含まれない
(5)Columnタイプのブロックに含まれない
(6)キャプション属性を持たない。
条件(6)は、図15のテーブルT-A200のエントリーの一つである、T-A211で定義されているように、キャプチョンタイプの正規表現にマッチし、”CAPTION”という論理属性が付与されている場合を示す。この場合も孤立項目行とは判定せず、行の分割処理を行わない。
※以下の何れかの条件を満たす
(1)テーブルT-A100の項目T-A104の値が0であれば、項目辞書との照合位置の右側にまだ文字列が存在
(2)テーブルT-A100の項目T-A104の値が1であれば、項目辞書との照合位置の左側
まだ文字列が存在
区切り判定でOKとなった場合、ステップP-H105において文字行の分割を行い、論理関係(項目-データ関係)の設定を行う。以降は、次に述べる条件1000の接続条件に従い、データ行の拡張を行っていく。
以上のステップで説明した、項目基点型のメタデータ抽出に加えて、次に説明する処理では、各行のメタデータ性のスコアリングによるメタデータ抽出処理について説明する。本処理は、タイトル、作成日、作成者など、文書内に参考となる項目行が存在せず、配置だけで決まるデータを抽出する場合に必要となる。
この際、これまでのブロック抽出処理で、カラムもしくはテーブル(図24のTable、COLUMN)として判定された領域を除く。テーブル領域については、既存の表論理構造解析技術を用いて、テーブルの項目-データ対応関係からメタデータを抽出するものとする。図30のテーブルE-I100に、設定特徴の例を示す。項目E-I101は、特徴量のIDを表す。項目E-I102は、特徴量の名前を表す。項目E-I103は、当該特徴量を持つと判定するための論理を表す。項目E-I104は、当該特徴を持つ時のスコアの計算方法を表す。テーブルE-I100の各行は、各特徴量の定義に対応する。
図31に、メタデータごとの使用特徴を定義したテーブルの例を示す。抽出する各文字行に対して、ここで設定した特徴があるかどうかを分析してスコアリングし、最高スコアをつけたキーワードを、文書内のメタデータ識別子に対応するメタデータみなす。各特徴量のスコアは0〜255の値をとるように設定しているが、それに限らない。図31において、項目E-J101は、抽出対象のメタデータ識別子を表す。項目E-J102は、図30のテーブルE-I100の項目E-I101に対応するもので、特徴IDを表す。項目E-J103は、制約条件を指定するもので、“除外条件”と書かれている場合は、項目E-J102で指定した特徴をもってはいけないことを表す。また、”選択条件”と書かれている場合は、指定した特徴を持っていなくてはいけないことを表す。この場合、項目E-J102で指定した特徴は、スコア計算には用いない。項目E-J104は、各メタデータの各特徴の重みを表す。この重みと、テーブルE-I100の項目E-I104で計算したスコアの積を計算する。項目E-J105は、隣接行の特徴(以降、行bi-gram特徴と呼ぶ)を用いる場合の隣接方向指示を表す。この方向の隣接行が、次の項目E-J106で指定するメタデータ識別子の候補であれば、特徴有りとして、固定スコア(ここでは255)を足す。特徴量は複数設定することが可能なので、ここで設定した全特徴項目について線形和をとることで、文字行のメタデータ性のスコアを計算する。以上が、静的特徴に基づくメタデータ性のスコア計算ステップである。
※以下の(1)(2)(3)の条件を満たす
(1)距離判定条件
・横拡張条件:(あ)or(い)の条件を満たす。
(あ)基点メタデータ行のRight座標と、右隣接行を含むブロックのLeft座標(なければ右隣接行のLeft座標)が、文字行高さの2倍以下である
(い)基点メタデータ行と右隣接行が、下側に共通のセクション、テーブル、もしくはカラムブロックを共有する。
・縦拡張条件:基点項目行のBottom座標と、下隣接行を含むブロックのTop座標が、文字行高さの2倍以下
(2)メタデータスコア判定条件
・隣接行のメタデータのスコアが基点メタデータ行のスコアの1/3以上
(3)形状判定条件
・縦横に拡張後のブロック形状が、LA、CA、RAのいずれかになる。
(4)関連のないメタデータ領域ではない
・拡張先の行が、既に項目-データ関係を持っている場合拡張しない
・但し、別表で定義された上位下位関係にあるメタデータの場合は階層性を記録して拡張する.
条件(1)の横拡張条件(い)は、図33のようなパターンを想定している。図33において、今文字行P-K101をタイトル性のスコアが高い行として選択した状態を表す(ステップP-I106終了後)。このときタイトルの右側隣接行P-K102は、横拡張条件(あ)では接続しない。しかし、文字行P-K101およびP-K102は、共にセクションブロックP-K110を共有するため、(1)距離条件を満たす。以上の条件により、メタデータスコアの値が閾値以上であり、下側にテーブル、セクション、カラムブロックを共有することで、メタデータの拡張条件を満たすことができる。
文書から抽出したメタデータは、図34に示すようなXML形式により外部ファイルとして、もしくはデータベースに出力する。図5の文字列P-L101は、メタデータ抽出処理を行ったファイル名を表す。文字列P-L102は、抽出したメタデータ名を表す。文字列P-L103は、抽出したメタデータ文字列を表す。タグP-L111は、項目(あれば)とメタデータの一つのペアを表しており、メタデータが複数種類もしくは同じメタデータについて複数個抽出されれば、抽出された数だけ、タグP-L111内の表現形式によって出力される。これにより、仕様書、納品書、契約書、見積書など互いに記載されている情報が異なる書類についても、XMLデータベースなどを利用することにより、まとめてデータ管理することが可能となる。
その他、図35に示すような様式により、複合機の画面上もしくはPC画面上で認識結果を表示してもよい。表示P-M101はタイトルメタデータを表す。表示P-M102は、番号メタデータを表す。表示P-M103は、作成日メタデータを表す。表示P-M104は、宛先メタデータを表す。表示P-M106は作成者(発行者)メタデータを表す。そP-M105は、担当者メタデータをあらわす。図35の各表示は、図面の都合上、モノクロ破線で表示しているが、実際の画面表示では、メタデータごとに色を定義し、その色の枠で囲むなどして抽出結果をユーザに示すことが可能である。抽出誤りがあれば、タッチパネルやマウス操作によるドラッグ&ドロップ操作により、枠の移動、枠の範囲補正をしてもよい。また、このような操作でたまった文書とメタデータの正解例を蓄積し、“行のスコアリングによるメタデータ抽出”で説明した、メタデータ別の使用特徴量の重みづけ(図31の項目E-J104)表を人手もしくはCRF(Conditional Random Field)等既存の機械学習手法を用いて更新してもよい。
Claims (11)
- 文書情報を入力可能な入力装置と、情報保持手段と、演算手段と、出力手段を少なくとも有し、文字の集合からなる文字行と文字行の集合からなるブロックの配置関係と、文書中の出現位置に基づき、メタデータを抽出する文書処理装置において、
上記演算手段は、
入力された上記文書情報から水平、垂直方向の罫線の外接矩形座標を抽出し、当該抽出された水平、垂直方向の罫線の外接矩形座標を基に、枠構造の抽出を実行し、要素間の隣接関係を判定して各要素の上下左右方向の隣接要素を抽出し、上記隣接要素の情報を基に、縦横の文字行を抽出して配置関係の解析を実行し、解析した文字行間の配置関係に基づき、行の集合であるブロックを抽出して予め定義される区分に分類し、当該抽出されたブロックについて矛盾パターン判定処理を実行し、ブロックの種別、レイアウト特徴及び行の文字列情報に基づき、各文字行の言語およびレイアウトの特徴量を夫々設定し、当該設定した特徴量と予め上記情報保持手段に対応付けられて記憶される特徴量とメタデータ識別情報とに基づいてメタデータを抽出し、当該メタデータを出力手段に出力することを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
上記各要素の上下左右方向の隣接要素の情報を基に縦横の文字行を抽出する処理は、一旦抽出した縦横行の配置関係の解析により決まるブロックにより決定される近傍の隣接関係の情報を合わせて用いることを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
上記演算手段は、上記外接矩形座標を抽出するよりも前に、上記文書情報が複数ページから構成されているか否かの判定を実行することを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
上記ブロックの隣接関係に基づき、文字行の再切断判定を実行し、テーブル、カラム領域を判定し、判定された論理構造と矛盾しないように、項目候補行を基点とするメタデータの探索を行うことを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
上記情報保持手段は所定の項目辞書を備え、
上記演算部は、上記項目辞書との照合により、メタデータ項目行を特定し、項目の種類に基づき、右または下方向の隣接文字行が対応するデータ領域であるかを判定し、あるいは左または上方向の隣接文字行が対応するデータ領域であるかを判定し、メタデータを抽出し、対象となる上記文書情報の文字認識結果に誤読・不読があって項目辞書のマッチングがいかない場合に、上記項目辞書ごとに照合対象行のページ基準座標内の位置によって、同じ編集距離でも照合度がことなるように設定し、この照合度の閾値により、項目辞書とマッチしたかどうかを判定した上で、メタデータを抽出することを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
上記演算部は、予め上記情報保持手段に記憶されるセクション文字列パターン情報に基づき、上記メタデータからセクション候補行を抽出し、
当該セクション候補行について、セクション番号順列とレイアウトの整合性、罫線を跨がないという制約を元に、セクション行を組合せてセクション文字列パターンとして抽出する処理を実行することを特徴とする文書処理装置。 - 請求項6に記載の文書処理装置において、
上記セクション文字列パターンを抽出する処理において、
上記セクション番号順列について不整合パターンが抽出された場合、上記罫線を跨がないという制約を外し、再度セクション抽出解析を行うことを特徴とする文書処理装置。 - 請求項6または7に記載の文書処理装置において、
抽出したセクション文字列パターンについて、セクション構造を解析し、セクションタイトルを有するか、段落かを判定し、項目とデータの関係を抽出することを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
各文字行の言語およびレイアウトの特徴量を夫々設定し、当該設定した特徴量と予め上記情報保持手段に対応付けられて記憶される特徴量とメタデータ識別情報とに基づいてメタデータ性のスコアリングを行い、メタデータを抽出した後、左右方向の隣接文字行についてもメタデータ性を判定し、その二つの行が、下方向の隣接要素としてテーブルもしくはカラムもしくはセクションブロックを共有した場合に、その二つの行を一つのメタデータ領域として統合することを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
各文字行の言語およびレイアウトの特徴量を夫々設定し、当該設定した特徴量と予め上記情報保持手段に対応付けられて記憶される特徴量とメタデータ識別情報とに基づいてメタデータ性のスコアリングを行い、メタデータを抽出した後、下方向の行について、既に別のメタデータであるとして記録されているかどうか判定し、かつそれが現在拡張中のメタデータと親子関係になり得るかどうか判定し、ならない場合拡張処理を止め、なる場合、親子関係であることを記録して拡張を続けることを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
上記情報保持手段は所定の項目辞書を備え、
上記演算部は、上下左右に配置された複数の行各々について、上記項目辞書との照合を行い、その組合せが特定のメタデータと対応づけられる場合に、該複数行をメタデータ項目行として特定し、項目の種類に基づき、右または下方向の隣接文字行が対応するデータ領域であるかを判定し、あるいは左または上方向の隣接文字行が対応するデータ領域であるかを判定し、メタデータを抽出することを特徴とする文書処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008279070A JP5380040B2 (ja) | 2008-10-30 | 2008-10-30 | 文書処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008279070A JP5380040B2 (ja) | 2008-10-30 | 2008-10-30 | 文書処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010108208A true JP2010108208A (ja) | 2010-05-13 |
JP5380040B2 JP5380040B2 (ja) | 2014-01-08 |
Family
ID=42297607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008279070A Active JP5380040B2 (ja) | 2008-10-30 | 2008-10-30 | 文書処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5380040B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016046988A1 (ja) * | 2014-09-26 | 2016-03-31 | 株式会社日立製作所 | 文書処理装置および項目抽出方法 |
JP2019530063A (ja) * | 2016-08-09 | 2019-10-17 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
JP2020154725A (ja) * | 2019-03-20 | 2020-09-24 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN113220841A (zh) * | 2021-05-17 | 2021-08-06 | 北京百度网讯科技有限公司 | 确定鉴别信息的方法、装置、电子设备和存储介质 |
KR20220058257A (ko) * | 2020-10-30 | 2022-05-09 | 한국과학기술정보연구원 | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 |
KR20220058259A (ko) * | 2020-10-30 | 2022-05-09 | 한국과학기술정보연구원 | 논문의 메타데이터 추출 방법 및 장치 |
KR102549730B1 (ko) * | 2022-11-14 | 2023-06-30 | 주식회사 플랜티넷 | 객체 군집화 기반 문서 분류 방법 및 장치 |
KR102572549B1 (ko) * | 2022-11-15 | 2023-08-30 | 주식회사 플랜티넷 | 객체 선택 기반 문서 분류 방법 및 장치 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09305704A (ja) * | 1996-05-20 | 1997-11-28 | Sharp Corp | 文書処理装置 |
JP2000137728A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 文書解析装置及びプログラム記録媒体 |
JP2000293521A (ja) * | 1999-04-09 | 2000-10-20 | Canon Inc | 画像処理方法、装置及び記憶媒体 |
JP2001344562A (ja) * | 2000-05-31 | 2001-12-14 | Toshiba Corp | 文書読取装置および文書読取方法 |
JP2007011775A (ja) * | 2005-06-30 | 2007-01-18 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法、プログラム及び記録媒体 |
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2007286961A (ja) * | 2006-04-18 | 2007-11-01 | Mitsubishi Electric Corp | 文書属性抽出装置及び文書属性抽出プログラム |
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
-
2008
- 2008-10-30 JP JP2008279070A patent/JP5380040B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09305704A (ja) * | 1996-05-20 | 1997-11-28 | Sharp Corp | 文書処理装置 |
JP2000137728A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 文書解析装置及びプログラム記録媒体 |
JP2000293521A (ja) * | 1999-04-09 | 2000-10-20 | Canon Inc | 画像処理方法、装置及び記憶媒体 |
JP2001344562A (ja) * | 2000-05-31 | 2001-12-14 | Toshiba Corp | 文書読取装置および文書読取方法 |
JP2007011775A (ja) * | 2005-06-30 | 2007-01-18 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法、プログラム及び記録媒体 |
JP2007286961A (ja) * | 2006-04-18 | 2007-11-01 | Mitsubishi Electric Corp | 文書属性抽出装置及び文書属性抽出プログラム |
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2016046988A1 (ja) * | 2014-09-26 | 2017-06-01 | 株式会社日立製作所 | 文書処理装置および項目抽出方法 |
WO2016046988A1 (ja) * | 2014-09-26 | 2016-03-31 | 株式会社日立製作所 | 文書処理装置および項目抽出方法 |
US11580141B2 (en) | 2016-08-09 | 2023-02-14 | Ripcord Inc. | Systems and methods for records tagging based on a specific area or region of a record |
JP2019530063A (ja) * | 2016-08-09 | 2019-10-17 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
JP2020154725A (ja) * | 2019-03-20 | 2020-09-24 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP7318248B2 (ja) | 2019-03-20 | 2023-08-01 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
KR20220058257A (ko) * | 2020-10-30 | 2022-05-09 | 한국과학기술정보연구원 | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 |
KR20220058259A (ko) * | 2020-10-30 | 2022-05-09 | 한국과학기술정보연구원 | 논문의 메타데이터 추출 방법 및 장치 |
KR102457962B1 (ko) * | 2020-10-30 | 2022-10-24 | 한국과학기술정보연구원 | 논문의 메타데이터 추출 방법 및 장치 |
KR102467096B1 (ko) * | 2020-10-30 | 2022-11-15 | 한국과학기술정보연구원 | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 |
CN113220841A (zh) * | 2021-05-17 | 2021-08-06 | 北京百度网讯科技有限公司 | 确定鉴别信息的方法、装置、电子设备和存储介质 |
CN113220841B (zh) * | 2021-05-17 | 2023-11-17 | 北京百度网讯科技有限公司 | 确定鉴别信息的方法、装置、电子设备和存储介质 |
KR102549730B1 (ko) * | 2022-11-14 | 2023-06-30 | 주식회사 플랜티넷 | 객체 군집화 기반 문서 분류 방법 및 장치 |
KR102572549B1 (ko) * | 2022-11-15 | 2023-08-30 | 주식회사 플랜티넷 | 객체 선택 기반 문서 분류 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP5380040B2 (ja) | 2014-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5380040B2 (ja) | 文書処理装置 | |
JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
US6721451B1 (en) | Apparatus and method for reading a document image | |
US7836390B2 (en) | Strategies for processing annotations | |
US8532384B2 (en) | Method of retrieving information from a digital image | |
JP4973063B2 (ja) | 表データ処理方法及び装置 | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN101523413A (zh) | 根据硬拷贝表单自动生成表单定义 | |
US11568666B2 (en) | Method and system for human-vision-like scans of unstructured text data to detect information-of-interest | |
US10762377B2 (en) | Floating form processing based on topological structures of documents | |
JP2021043478A (ja) | 情報処理装置、その制御方法及びプログラム | |
JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
JP5446877B2 (ja) | 目次構造特定装置 | |
JP2009110500A (ja) | ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム | |
JP2012190434A (ja) | 帳票定義装置、帳票定義方法、プログラム及び記録媒体 | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JP2007241355A (ja) | 画像処理装置及び画像処理プログラム | |
Yamashita et al. | A document recognition system and its applications | |
CN114529933A (zh) | 一种合同数据差异性的比对方法、装置、设备和介质 | |
JP3898645B2 (ja) | 帳票書式編集装置および帳票書式編集プログラム | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4466241B2 (ja) | 文書処理手法及び文書処理装置 | |
Cao et al. | Automatic recognition of tables in construction tender documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5380040 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |